LIP6 2001/020

  • Soutenance de thèse
    Apprentissage Automatique et Recherche d'Information : application à l'Extraction d'Information de surface et au Résumé de Texte.
  • M.-R. Amini
  • 210 pages - 13/07/2001- document en - http://www.lip6.fr/lip6/reports/2001/lip6.2001.020.pdf - 2,518 Ko
  • Contact : Massih-Reza.Amini (at) nulllip6.fr
  • Ancien Thème : APA
  • La thèse porte sur l'utilisation de méthodes issues de l'apprentissage automatique pour des tâches de recherche d'information dans les textes. Notre motivation a été d'explorer le potentiel des techniques d'apprentissage pour répondre aux demandes d'accès à l'information textuelle liées au développement de grandes bases de données texte et au web. Dans ce contexte il est devenu important d'être capable de traiter de grandes quantités de données, d'apporter des solutions diversifiées aux nouvelles demandes utilisateurs et d'automatiser les outils qui permettent d'exploiter l'information textuelle. Nous avons pour cela exploré deux directions. La première est le développement de modèles permettant de prendre en compte l'information séquentielle présente dans les textes afin d'exploiter une information plus riche que la représentation sac de mots traditionnellement utilisée par les systèmes de recherche d'information. Pour cela nous proposons des modèles statistiques basés sur des Modèles de Markov Cachés et des réseaux de neurones. Nous montrons comment ces systèmes permettent d'étendre les capacités des modèles robabilistes classiques de la recherche d'information et comment ils peuvent être utilisés en particulier pour des tâches d'extraction d'information de surface. La deuxième direction explorée concerne l'apprentissage semi-supervisé. Il s'agit d'utiliser pour des tâches d'accès à l'information une petite quantité de données étiquetées conjointement à une masse importante de données non-étiquetées. Cela correspond à une situation de plus de plus fréquente en recherche d'information. Nous proposons et analysons des algorithmes originaux basés sur un formalisme discriminant. Nous avons utilisé ces techniques pour le résumé de texte vu sous l'anglae de l'extraction de phrases pertinentes d'un document. Ces travaux se sont concrétisés par le développement du Système d'Aide au Résumé Automatique (S.A.R.A.).
  • Mots clés : Accès à l'information textuelle, recherche et extraction de l'information, apprentissage, modèles de séquences, apprentissage semi-supervisé, résumé de texte
  • Directeur de la publication : Valerie.Mangin (at) nulllip6.fr