LIP6 1997/003

Une approche de la catégorisation de textes par l'apprentissage symbolique

I. Moulinier

LIP6 1997/003: THÈSE de DOCTORAT de l'UNIVERSITÉ PARIS 6 LIP6 / LIP6 research reports
192 pages - Avril/April 1997 - French document.

PostScript : 531 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : Une approche de la catégorisation de textes par l'apprentissage symbolique
Titre anglais : Text categorization: a symbolic approach

Résumé : L'objectif principal des travaux présentés dans cette thèse est de déterminer si la classification automatique, en particulier au moyen de l'apprentissage symbolique supervisé, peut être appliquée à la catégorisation de documents, tâche qui permet d'affecter des catégories sémantiques à des documents en fonction de leur contenu. Le mémoire s'articule autour de deux axes complémentaires. L'axe principal consiste à déterminer si les techniques d'apprentissage apportent des solutions aux préoccupations de la recherche documentaire, en particulier le filtrage de documents. Dans cette optique, il est nécessaire de prendre en compte les caractéristiques des collections textuelles, en particulier celles liées aux dimensions des données textuelles (plusieurs milliers d'exemples et des dizaines de milliers d'attributs), qui sortent du cadre classique des applications de l'apprentissage. Ce problème constitue le second axe de notre travail. Pour des raisons de complexité, notre démarche est d'introduire une étape préalable de sélection d'attributs avant tout apprentissage. Ceci nous conduit à proposer une méthode originale de réduction, appelée SCAR, qui tire parti des caractéristiques des données textuelles. Nous comparons SCAR à deux méthodes classiques pour la réduction de dimension. Nous évaluons ces méthodes sur la collection Reuters-22173, dont la taille est conséquente. Nous nous intéressons ensuite aux liens entre le présupposé d'apprentissage (nature de l'apprentissage) et les données textuelles, dans l'optique d'une application au filtrage. Nos résultats montrent que, malgré la relative équivalence observée en moyenne en comparant les différents algorithmes proposés, on peut distinguer une réelle influence du présupposé d'apprentissage sur la performance de l'algorithme, lorsque celui est appliqué à certaines classes de problèmes que nous avons identifiées.

Abstract : Our aim in this dissertation is to assess whether classification, especially symbolic machine learning, may be applied to the text categorization task, i.e. the content-based assignement of categories to documents. We focus on two complementary aspects. First, we investigate the extent to which learning techniques provide solutions for Information Retrieval problems, with an emphasis on document filtering. Then, we stress that textual data possess specificities outside the usual scope of machine learning applications. Indeed, such data involve thousands of exemples and tens of thousands of features. For the sake of computational efficiency, we introduce a feature selection stage prior to the learning process. We thus propose the SCAR reduction method, which takes into account the specificities of textual data. We compare the SCAR method with two state-of-the-art approaches. Evalution is carried out on a large-sized collection: the Reuters-22,173 corpus. Finally, we study the relationships between learning bias and textual data, in the context of filtering applications. We observe an overall equivalence between all learners. However, learning bias turns out to have a real impact on effectiveness, depending on the class of problems we identified.

Mots-clés : Apprentissage symbolique automatique, catégorisation de textes, réduction de dimensions, recherche documentaire

Key-words : Machine learning, text categorization, feature reduction, information retrieval

Publications internes LIP6 1997 / LIP6 research reports 1997

Responsable Éditorial / Editor
webmaster@lip6.fr