LIP6-2001/020

Apprentissage Automatique et Recherche d'Information : application à l'Extraction d'Information de surface et au Résumé de Texte.

M.-R. Amini

LIP6 2001/020: THÈSE de DOCTORAT de l'UNIVERSITÉ PARIS 6 LIP6 / LIP6 research reports
210 pages - Juillet/July 2001 - French document.

Get it : 2459 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : Apprentissage Automatique et Recherche d'Information : application à l'Extraction d'Information de surface et au Résumé de Texte.
Titre anglais : Machine Learning and Information Retrieval: Application to surface Inforamtion Extraction and Text Summarization.

Résumé : La thèse porte sur l'utilisation de méthodes issues de l'apprentissage automatique pour des tâches de recherche d'information dans les textes. Notre motivation a été d'explorer le potentiel des techniques d'apprentissage pour répondre aux demandes d'accès à l'information textuelle liées au développement de grandes bases de données texte et au web. Dans ce contexte il est devenu important d'être capable de traiter de grandes quantités de données, d'apporter des solutions diversifiées aux nouvelles demandes utilisateurs et d'automatiser les outils qui permettent d'exploiter l'information textuelle. Nous avons pour cela exploré deux directions. La première est le développement de modèles permettant de prendre en compte l'information séquentielle présente dans les textes afin d'exploiter une information plus riche que la représentation sac de mots traditionnellement utilisée par les systèmes de recherche d'information. Pour cela nous proposons des modèles statistiques basés sur des Modèles de Markov Cachés et des réseaux de neurones. Nous montrons comment ces systèmes permettent d'étendre les capacités des modèles robabilistes classiques de la recherche d'information et comment ils peuvent être utilisés en particulier pour des tâches d'extraction d'information de surface. La deuxième direction explorée concerne l'apprentissage semi-supervisé. Il s'agit d'utiliser pour des tâches d'accès à l'information une petite quantité de données étiquetées conjointement à une masse importante de données non-étiquetées. Cela correspond à une situation de plus de plus fréquente en recherche d'information. Nous proposons et analysons des algorithmes originaux basés sur un formalisme discriminant. Nous avons utilisé ces techniques pour le résumé de texte vu sous l'anglae de l'extraction de phrases pertinentes d'un document. Ces travaux se sont concrétisés par le développement du Système d'Aide au Résumé Automatique (S.A.R.A.).

Abstract : The prupose of this work is the application of machine learning techniques to Information Retrieval tasks. Our concern was to explore the potential of learning techniques to handle textual information access needs related to the developpment of huge databases and Internet. In this context it is becoming important to handle huge quantities of data, to provide solutions to new user needs and to automate tools for exploiting textual information. For this, we have explored two directions. The first is the developpment of systems able to model the sequential nature of documents so as to take advantage of this information which is not handled by classical information retrieval systems. For this, we propose statistical models based on Hidden Markov Models and Neural Networks. We show how these systems allow to extend the capabilites of classical inforamtion retrieval probabilistic models and in particular, how they can be used for the surface information extraction tasks. The second direction concerns the semi-supervised learning paradigm. It is a matter of using a small-labeled data set together with a huge unlabeled data set in order to train systems for information access tasks. This situation is frequently met in information retrieval. We propose and analyze original algorithms based on a discriminant formalism. We have used these techniques for the text summarization task where the goal is to extract the most relevant sentences of a document. This study has led to the developpment of an automatic summarizer system (S.A.R.A.).

Mots-clés : Accès à l'information textuelle, recherche et extraction de l'information, apprentissage, modèles de séquences, apprentissage semi-supervisé, résumé de texte

Key-words : Textual information access, Information retrieval and extraction, Machine Learning, Sequence Models, semi-supervised learning, Text Summarization

Publications internes LIP6 2001 / LIP6 research reports 2001

Responsable Éditorial / Editor :Valerie.Mangin@lip6.fr