DENOYER Ludovic

Supervision : Patrick GALLINARI

Apprentissage et inférence statistique dans les bases de documents structurés : Application aux corpus de documents textuels

L‚apparition des données semi structurées de type XML ou HTML a considérablement modifié le cadre habituel de la Recherche d‚Information (RI). En effet, la notion même d‚unité d‚information est aujourd‚hui complètement remise en cause et il est donc nécessaire d‚une part d‚adapter les modèles pour prendre en compte ce nouveau type de documents et d‚autre part il faut s‚intéresser aux nouvelles problématiques qui émergent. Dans le cadre de notre thèse, nous nous intéressons à trois problématiques pour l‚accès aux documents structurés : la classification supervisée et le clustering qui sont deux problématiques classiques de la RI ainsi que la restructuration automatique de documents qui est une problématique émergente spécifique aux documents structurés. Nous proposons tout d‚abord une famille générale de modèles génératifs de documents structurés. Nous développons deux instances : la première permet la classification de documents plats multi thématiques. La seconde est un modèle génératif de documents structurés arborescents (type XML)  basée sur le formalisme des réseaux Bayésiens qui permet de prendre en compte simultanément l‚information de contenu et l‚information de structure.  Ce dernier modèle est ensuite instancié et utilisé pour traiter les trois problématiques abordées

Defence : 12/15/2004

Jury members :

Bernd AMANN / Professeur LIP6 / Examinateur
Younès BENNANI / Prfesseur Université Paris 13 / Rapporteur
Eric GAUSSIER / Principal Scientist XEROX R&S / Rapporteur
Michèle SEBAG / Directeur de Recherche CNRS - LRI / Examinateur
Rémi GILLERON / Professeur Université Lille 3 / Examinateur
Patrick GALLINARI / Professeur LIP6 / Directeur de thèse

Departure date : 08/30/2005

13 PhD graduated 2012 - 2021

2001-2021 Publications