ENGILBERGE Martin

Docteur
Équipe : MLIA
Date de départ : 12/06/2020
https://lip6.fr/Martin.Engilberge
Deep multimodal embeddings and grounding

De nos jours l’Intelligence artificielle (IA) est omniprésente dans notre société. Le récent développement des méthodes d’apprentissage basé sur les réseaux de neurones profonds aussi appelé “Deep Learning” a permis une nette amélioration des modèles de représentation visuelle et textuelle. Cette thèse aborde la question de l’apprentissage de plongements multimodaux pour représenter conjointement des données visuelles et sémantiques. C’est une problématique centrale dans le contexte actuel de l’IA et du deep learning, qui présente notamment un très fort potentiel pour l’interprétabilité des modèles.
Nous explorons dans cette thèse les espaces de représentations conjoints visuels et sémantiques. Nous proposons deux nouveaux modèles permettant de construire de tels espaces. Nous démontrons également leurs capacités à localiser des concepts sémantiques dans le domaine visuel. Enfin, nous introduisons une nouvelle méthode permettant d’apprendre une approximation différentiable des fonctions d’évaluation basée sur le rang.

Soutenance : 12/06/2020 - 16h - Visioconférence

Membres du jury :

M. AVRITHIS Yannis, Senior Researcher, INRIA Rennes [Rapporteur]
M. THOME Nicolas, Professeur, CNAM [Rapporteur]
Mme LARLUS Diane, Senior Research Scientist, NAVER Labs
M. PONCE Jean, Directeur de Recherche, INRIA - ENS
M. GALLINARI Patrick, Professeur, Sorbonne Université
M. PEREZ Patrick, Directeur de Recherche, Valeo.ai
M. CORD Matthieu, Professeur, Sorbonne Université

Publications 2018-2020