LIP6 2001/020

Thèse
Apprentissage Automatique et Recherche d'Information : application à l'Extraction d'Information de surface et au Résumé de Texte.
M.-R. Amini
210 pages - 13/07/2001- document en - http://www.lip6.fr/lip6/reports/2001/lip6.2001.020.pdf - 2,518 Ko
Contact : Massih-Reza.Amini (at) nulllip6.fr
Ancien Thème : APA

La thèse porte sur l'utilisation de méthodes issues de l'apprentissage automatique pour des tâches de recherche d'information dans les textes. Notre motivation a été d'explorer le potentiel des techniques d'apprentissage pour répondre aux demandes d'accès à l'information textuelle liées au développement de grandes bases de données texte et au web. Dans ce contexte il est devenu important d'être capable de traiter de grandes quantités de données, d'apporter des solutions diversifiées aux nouvelles demandes utilisateurs et d'automatiser les outils qui permettent d'exploiter l'information textuelle. Nous avons pour cela exploré deux directions. La première est le développement de modèles permettant de prendre en compte l'information séquentielle présente dans les textes afin d'exploiter une information plus riche que la représentation sac de mots traditionnellement utilisée par les systèmes de recherche d'information. Pour cela nous proposons des modèles statistiques basés sur des Modèles de Markov Cachés et des réseaux de neurones. Nous montrons comment ces systèmes permettent d'étendre les capacités des modèles robabilistes classiques de la recherche d'information et comment ils peuvent être utilisés en particulier pour des tâches d'extraction d'information de surface. La deuxième direction explorée concerne l'apprentissage semi-supervisé. Il s'agit d'utiliser pour des tâches d'accès à l'information une petite quantité de données étiquetées conjointement à une masse importante de données non-étiquetées. Cela correspond à une situation de plus de plus fréquente en recherche d'information. Nous proposons et analysons des algorithmes originaux basés sur un formalisme discriminant. Nous avons utilisé ces techniques pour le résumé de texte vu sous l'anglae de l'extraction de phrases pertinentes d'un document. Ces travaux se sont concrétisés par le développement du Système d'Aide au Résumé Automatique (S.A.R.A.).

Mots clés : Accès à l'information textuelle, recherche et extraction de l'information, apprentissage, modèles de séquences, apprentissage semi-supervisé, résumé de texte
Directeur de la publication : Valerie.Mangin (at) nulllip6.fr

Mentions légales

Carte du site