Annuaire

ZABLOCKI Eloi

Doctorant à Sorbonne Université
Équipe : MLIA

Direction de recherche : Patrick GALLINARI, Benjamin PIWOWARSKI, Laure SOULIER

Apprentissage automatique multi-modal: complémentarité des contextes textuels et visuels

L'interaction entre le langage et la vision reste relativement peu explorée malgré un intérêt grandissant. Au delà des différences triviales entre textes et images, ces deux modalités portent des sémantiques distinctes. D'une part, le langage peut exprimer une sémantique de haut niveau sur le monde, mais il est biaisé dans le sens qu’une grande partie de son contenu est implicite (sens commun). D'autre part, les images sont des agrégats de niveaux inférieurs informations, mais elles donnent accès plus directement aux statistiques du monde réel et peuvent être utilisées pour ancrer l'apprentissage de la sémantique d'un objet. Dans cette thèse, nous exploitons les connexions et nous tirons parti de la complémentarité entre langage et vision.

Premièrement, les capacités de compréhension du langage naturel peuvent être améliorées à l'aide de la modalité visuelle, car le langage est naturellement ancré dans le monde visuel. En particulier, représenter la sémantique d'un mot est un problème de longue date pour la communauté du traitement de la langue naturel, et, pour améliorer les approches traditionnelles, il est essentiel de tirer parti d'informations visuelles. Nous montrons que les représentations linguistiques peuvent être enrichies par des informations visuelles et nous nous concentrons particulièrement sur les contextes visuels et l'organisation spatiale des scènes. Nous présentons deux modèles pour apprendre des représentations multimodales sémantiques pour des mots ou des phrases, à l’aide d’images.

A l'inverse, l'intégration du langage à la vision ouvre la possibilité d'élargir les horizons et les tâches de la communauté de la vision par ordinateur. En supposant que le langage contienne des informations visuelles sur les objets et que celles-ci peuvent être capturées dans une représentation sémantique, nous nous concentrons sur la tâche de reconnaissance zero-shot, qui consiste à reconnaître des objets qui n'ont jamais été vus grâce aux connaissances linguistiques acquises auparavant. En particulier, nous montrons que les représentations linguistiques contiennent non seulement des informations visuelles sur l'apparence visuelle des objets, mais également sur leur environnement visuel typique et leurs fréquences d'occurrence visuelle. Nous présentons ainsi un modèle de reconnaissance zero-shot tirant parti du contexte visuel d'un objet et de sa probabilité d'occurrence visuelle, en plus de la région d'intérêt, comme dans les approches traditionnelles.

Enfin, nous présentons des pistes de recherche potentielles pour exploiter davantage les liens entre langage et images et pour mieux comprendre le fossé sémantique entre les deux modalités.

Soutenance : 14/10/2019

Membres du jury :

M Guillaume Gravier, IRISA [Rapporteur]
Mme Marie-Francine Moens, KU Leuven [Rapporteur]
M Antoine Bordes (examinateur), Facebook
M Patrick Gallinari, Sorbonne Université LIP6 / Criteo
M Benjamin Piwowarski, Sorbonne Université LIP6
Mme Laure Soulier, Sorbonne Université LIP6
M Xavier Tannier, Sorbonne Université LIMICS

Date de départ : 31/10/2019

Publications 2017-2019

Toutes Communications Soutenance de thèse

2019
- E. Zablocki : “Multimodal machine learning: complementarity of textual and visual contexts”, soutenance de thèse, soutenance 14/10/2019, direction de recherche Gallinari, Patrick Piwowarski, Benjamin Soulier, Laure (2019)
- P. Bordes, É. Zablocki, L. Soulier, B. Piwowarski, P. Gallinari : “Incorporating Visual Semantics into Sentence Representations within a Grounded Space”, 2019 Conference on Empirical Methods in Natural Language Processing and 9^th International Joint Conference on Natural Language Processing, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9^th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China, pp. 696-707, (Association for Computational Linguistics) (2019)
- É. Zablocki, P. Bordes, B. Piwowarski, L. Soulier, P. Gallinari : “Context-Aware Zero-Shot Learning for Object Recognition”, Thirty-sixth International Conference on Machine Learning (ICML), Long Beach, CA, United States (2019)
- P. Bordes, É. Zablocki, L. Soulier, B. Piwowarski : “Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle”, COnférence en Recherche d'Informations et Applications, COnférence en Recherche d'Informations et Applications - CORIA 2019, 16^th French Information Retrieval Conference. Lyon, France, May 25-29, 2019. Proceedings, Lyon, France (2019)
2018
- É. Zablocki, B. Piwowarski, L. Soulier, P. Gallinari : “Apprentissage multimodal de représentation de mots à l’aide de contexte visuel”, Conférence sur l'Apprentissage Automatique, Rouen, France (2018)
- É. Zablocki, B. Piwowarski, L. Soulier, P. Gallinari : “Learning Multi-Modal Word Representation Grounded in Visual Context”, Association for the Advancement of Artificial Intelligence (AAAI), New Orleans, United States (2018)
2017
- É. Zablocki, P. Bordes, L. Soulier, B. Piwowarski, P. Gallinari : “LIP6@CLEF2017: Multi-Modal Spatial Role Labeling using Word Embeddings Working notes”, CLEF 2017 Working Notes, Dublin, Ireland (2017)