CHEN Yifu

Docteur
Équipe : MLIA
Date de départ : 31/12/2020
https://lip6.fr/Yifu.Chen

Direction de recherche : Matthieu CORD

Apprentissage profond pour la segmentation sémantique d'images

Avec la prolifération des capteurs et des outils de communication, la quantité de données visuelles disponible augmente constamment. Grâce à ces données, on peut concevoir aujourd’hui de nombreuses applications fascinantes, telles que des systèmes de conduite autonome ou des méthodes de diagnostic médical assisté. Il est donc important de développer des outils scientifiques et technologiques permettant une analyse automatique performante des données visuelles. Dans cette thèse, nous nous intéressons à la segmentation sémantique visuelle, une des tâches de haut niveau qui ouvre la voie à une compréhension complète des scènes. Plus précisément, elle requiert une compréhension sémantique au niveau du pixel. Avec le succès de l’apprentissage statistique ces dernières années, les problèmes de segmentation sémantique sont désormais abordés en utilisant des architectures profondes. En général, trois éléments structurent ces approches : un réseau profond, une fonction de coût et un processus d’optimisation sur un ensemble de données annotées. Dans la première partie, nous nous concentrons sur la construction d’une fonction de coût plus appropriée pour la segmentation sémantique. En particulier, nous définissons une nouvelle fonction de coût basée sur un réseau de neurone de détection de contour sémantique. Cette fonction de coût impose des prédictions au niveau du pixel cohérentes avec les informations de contour sémantique de la vérité terrain, et conduit donc à des résultats de segmentation mieux délimités. Dans la deuxième partie, nous abordons une autre question importante, à savoir l’apprentissage de modèles de segmentation avec peu de données annotées. Pour cela, nous proposons une nouvelle méthode d’attribution qui identifie les régions les plus importantes dans une image considérée par les réseaux de classification. Nous intégrons ensuite notre méthode d’attribution dans un contexte de segmentation faiblement supervisé. Les modèles de segmentation sémantique sont ainsi entraînés avec des données étiquetées au niveau de l’image, qui sont facile à collecter en grande quantité. Tous les modèles proposés dans cette thèse sont évalués expérimentalement de manière approfondie sur plusieurs ensembles de données et les résultats sont compétitifs avec ceux de la littérature.

Soutenance : 09/09/2020 - 10h - Diffusion vidéo

Membres du jury :

Mme. Catherine Achard (Sorbonne Université - ISIR) Examinatrice
M. Patrick Lambert (Université Savoie Mont Blanc - LISTIC) Rapporteur
M. Sébastien Lefèvre (Université Bretagne Sud - IRISA) Rapporteur
Mme. Camille Couprie (Facebook AI Research) Examinatrice
M. Frédéric Precioso (Université Côte d'Azur - I3S) Examinateur
M. Arnaud Dapogny (Datakalab) Examinateur
M. Matthieu Cord (Sorbonne Université - LIP6) Directeur de thèse

Publications 2019-2020