LECERF Loic
Supervision : Patrick GALLINARI
Co-supervision : CHIDLOVSKII Boris
Apprentissage Machine pour Assister l'Annotation de Documents. Clustering Visuel Interactif, Apprentissage Actif et Extraction Automatique des Descripteurs
Cette thèse porte sur l’apprentissage machine pour l’annotation. L’objectif de l’annotation est d’insérer une information additionnelle à un objet (e.g. images, documents, vidéos, données biologiques, etc.). Ces informations permettent une meilleure compréhension ou organisation de ces objets par une machine. Alors que l’annotation manuelle est le plus souvent coûteuse, les travaux récents de la littérature proposent d’utiliser les méthodes d’apprentissage machine pour automatiser la tâche d’annotation. L’apprentissage machine a connu une progression très importante et son application à l’annotation a montré expérimentalement son efficacité pour de nombreux domaines. Au cours de notre travail de thèse, nous avons cherché à faire évoluer l’apprentissage machine afin de rendre son utilisation plus facile (définition des descripteurs et élaboration du corpus d’apprentissage) ou plus flexible afin de permettre à un utilisateur de s’impliquer et guider le processus d’apprentissage machine. Dans la première partie de ce mémoire, nous introduisons l’apprentissage machine interactif. Nous proposons plusieurs approches dans lesquelles nous combinons des outils de visualisation scientifique à l’apprentissage machine. Ces approches se présentent comme une alternative à l’apprentissage automatique, particulièrement pertinente lorsque le coût d’annotation ou le coût d’erreur de prédiction est élevé et lorsque l’utilisateur possède des connaissances du domaine utiles pour guider l’apprentissage machine. Dans une deuxième partie de nos travaux, nous avons cherché à réduire le travail de définition des descripteurs. Nous avons d’une part étudié et amélioré les méthodes pour la sélection automatique de grands ensembles de descripteurs génériques, puis nous avons proposé une nouvelle approche pour la génération automatique de ces descripteurs pour des données de type séquentielle. Notre travail de thèse a été motivé par la tâche spécifique d’annotation sémantique de documents semi-structurés. Nos travaux ont été évalués expérimentalement sur des collections de documents mais aussi sur d’autres ensembles de données issues de domaines divers. De même, afin de vérifier la pertinence de nos méthodes, nous avons déployé un prototype pour l’annotation sémantique de documents par apprentissage actif, ainsi qu’une application Web, pour l’annotation interactive.
Defence : 06/19/2009
Jury members :
Thierry ARTIÈRES Professeur Université Pierre et Marie Curie
Boris CHIDLOVSKII Principal Scientist Centre Européen de Recherche de Xerox
Michel CRUCIANU Professeur Conservatoire National des Arts et Métiers [rapporteur]
Patrick GALLINARI Professeur Université Pierre et Marie Curie
Eric GAUSSIER Professeur Université Joseph Fourier (Grenoble 1) [rapporteur]
2009 Publications
-
2009
- L. Lecerf : “Apprentissage Machine pour Assister l’Annotation de Documents. Clustering Visuel Interactif, Apprentissage Actif et Extraction Automatique des Descripteurs”, thesis, phd defence 06/19/2009, supervision Gallinari, Patrick, co-supervision : Chidlovskii, Boris (2009)