CADENE Rémi

Docteur
Équipe : MLIA
Date de départ : 04/04/2021
https://lip6.fr/Remi.Cadene

Direction de recherche : Matthieu CORD

Co-encadrement : THOME Nicolas

Apprentissage multimodal profond pour le traitement de la vision et du langage

Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d'automatiser le traitement de la quantité croissante d'images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adapté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l'intersection entre vision et langage. L'intégration du langage dans la reconnaissance visuelle pourrait avoir un impact important sur la vie humaine grâce à la création d'applications telles que des moteurs de recherche de nouvelle génération ou des smart assistants.
Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d'apprentissage pour aligner efficacement les deux modalités tout en structurant l'espace de recherche avec de l'information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l'image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d'apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles.

Soutenance : 08/07/2020

Membres du jury :

Mme. Gabriela Csurka, Naver LABS Europe [rapportrice]
M. Ivan Laptev, INRIA Paris [rapporteur]
M. Patrick Gallinari, Sorbonne Université - LIP6
M. Thomas Serre, Brown University
M. Eduardo Valle, Campinas University - RECOD
M. Nicolas Thome, CNAM - CEDRIC
M. Matthieu Cord, Sorbonne Université - LIP6

Date de départ : 04/04/2021

Publications 2017-2021

Mentions légales
Carte du site