Doctorant à Sorbonne Université (Moniteur, Bourse EDITE) Équipe : BD
Date d'arrivée : 01/10/2024 Sorbonne Université - LIP6 Boîte courrier 169 Couloir 25-26, Étage 5, Bureau 520 4 place Jussieu 75252 PARIS CEDEX 05 01 44 27 75 13
Allaa.Boutaleb (at) nulllip6.fr https://lip6.fr/Allaa.Boutaleb
Direction de recherche : Bernd AMANN
Co-encadrement : ANGARITA Rafael, NAACKE Hubert
Apprentissage de la représentation des table pour la découverte et l'intégration de données dans les lacs de données
L'objectif de cette proposition de thèse est de définir et de développer de nouvelles solutions pour la découverte de données tabulaires structurées en apprenant des représentations de tableaux à l'aide de grands modèles de langage (Large Language Models, LLM) et de réseaux neuronaux pour les graphes (Graph Neural Networks, GNN). L'approche proposée suggère que les capacités d'apprentissage par transfert sous-jacentes et la capacité à traiter des données basées sur des graphes fournissent un cadre robuste pour les défis de l'intégration de données moderne, permettant une analyse plus profonde et des modèles précis pour découvrir et intégrer des ensembles de données hétérogènes dans un lac de données. L'approche scientifique nécessite une expérience théorique et pratique en traitement de données structurées et en apprentissage profond.
A. Boutaleb, A. Almutawa, B. Amann, R. Angarita, H. Naacke : “HEARTS: HypErgrAph-based Related Table Search”, ELLIS workshop on Representation Learning and Generative Models for Structured Data, Amsterdam, Netherlands (2025)