LIP6 1997/003

Thèse
Une approche de la catégorisation de textes par l'apprentissage symbolique
I. Moulinier
192 pages - 30/04/1997- document en - http://www.lip6.fr/lip6/reports/1997/lip6.1997.003.ps.gz - 544 Ko
Contact : Isabelle.Moulinier (at) nulllip6.fr
Ancien Thème : APA

L'objectif principal des travaux présentés dans cette thèse est de déterminer si la classification automatique, en particulier au moyen de l'apprentissage symbolique supervisé, peut être appliquée à la catégorisation de documents, tâche qui permet d'affecter des catégories sémantiques à des documents en fonction de leur contenu. Le mémoire s'articule autour de deux axes complémentaires. L'axe principal consiste à déterminer si les techniques d'apprentissage apportent des solutions aux préoccupations de la recherche documentaire, en particulier le filtrage de documents. Dans cette optique, il est nécessaire de prendre en compte les caractéristiques des collections textuelles, en particulier celles liées aux dimensions des données textuelles (plusieurs milliers d'exemples et des dizaines de milliers d'attributs), qui sortent du cadre classique des applications de l'apprentissage. Ce problème constitue le second axe de notre travail. Pour des raisons de complexité, notre démarche est d'introduire une étape préalable de sélection d'attributs avant tout apprentissage. Ceci nous conduit à proposer une méthode originale de réduction, appelée SCAR, qui tire parti des caractéristiques des données textuelles. Nous comparons SCAR à deux méthodes classiques pour la réduction de dimension. Nous évaluons ces méthodes sur la collection Reuters-22173, dont la taille est conséquente. Nous nous intéressons ensuite aux liens entre le présupposé d'apprentissage (nature de l'apprentissage) et les données textuelles, dans l'optique d'une application au filtrage. Nos résultats montrent que, malgré la relative équivalence observée en moyenne en comparant les différents algorithmes proposés, on peut distinguer une réelle influence du présupposé d'apprentissage sur la performance de l'algorithme, lorsque celui est appliqué à certaines classes de problèmes que nous avons identifiées.

Mots clés : Apprentissage symbolique automatique, catégorisation de textes, réduction de dimensions, recherche documentaire
Directeur de la publication : Valerie.Mangin (at) nulllip6.fr

Mentions légales

Carte du site