KIM Young-Min
Direction de recherche : Patrick GALLINARI
Apprentissage d'Espaces de Concepts pour le Partitionnement Non-Supervisé de Documents Textuels
La tâche de partitionnement de documents est l'un des problèmes centraux en Recherche d'Information (RI). Les résultats de partitionnement peuvent non-seulement donner une indication sur la structure d'une collection de documents, mais ils sont aussi souvent utilisés dans différents tâches de RI.
Dans cette thèse, nous nous somme intéressés à développer des techniques probabilistes à base de modèles latents pour cette tâche. Dans ce but, nous proposons quatre techniques différentes basées sur l'observation que le partitionnement est bien plus effectif dans un espace de concepts trouvé automatiquement que dans l'espace de sac-de-mots.
Cette observation est issue des résultats d'un partitionnement en deux étapes, où dans une première phase, les mots de la collection sont regroupés suivant l'hypothèse que les termes apparaissant dans les mêmes documents avec les mêmes fréquences sont similaires. Les documents sont ensuite regroupés dans l'espace induit par ces groupements de mots, appelés concepts de mots. Sur ce principe, nous étendons le modèle latent PLSA pour un partitionnement simultané des mots et des documents. Nous proposons ensuite une stratégie de sélection de modèles permettant de trouver efficacement le meilleur modèle parmi tous les choix possibles. Et aussi, nous montrons comment le PLSA peut être adaptés pour le partitionnement multi-vus de documents multi-langues.
Soutenance : 16/12/2010
Membres du jury :
M. Bernd AMANN (Université Pierre et Marie Curie / Laboratoire LIP6)
M. Massih-Reza AMINI (Université Pierre et Marie Curie / Laboratoire LIP6) [Directeur de thèse]
M. Patrice BELLOT (Université d’Avignon / Laboratoire LIA-CERI )
M. Patrick GALLINARI (Université Pierre et Marie Curie / Laboratoire LIP6) [Directeur de thèse]
M. Eric GAUSSIER (Université Joseph Fourier / Laboratoire LIG ) [Rapporteur]
M. Pascal PONCELET (Ecole des Min d’Alès / Laboratoire LGI2P) [Rapporteur]
Publications 2008-2010
-
2010
- Y.‑M. Kim : “Apprentissage d’Espaces de Concepts pour le Partitionnement Non-Supervisé de Documents Textuels”, thèse, soutenance 16/12/2010, direction de recherche Gallinari, Patrick (2010)
- Y.‑M. Kim, M.‑R. Amini, C. Goutte, P. Gallinari : “Multiview Clustering of Multilingual Documents”, Proceedings of the 33rd Annual ACM SIGIR Conference (SIGIR 2010), Geneva, Switzerland, pp. 812-822, (ACM) (2010)
- J.‑F. Pessiot, Y.‑M. Kim, M.‑R. Amini, P. Gallinari : “Improving Document Clustering in a Learned Concept Space”, Information Processing and Management, vol. 46 (2), pp. 180-192, (Elsevier) (2010)
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Apprentissage d’un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles”, Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, vol. 13 (1), pp. 63-82, (Hermès) (2010)
-
2009
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Une extension du modèle sémantique latent probabiliste pour le partitionnement non-supervisé de documents textuels”, Conférence d'apprentissage, CAP 2009, Hammamet, Tunisia (2009)
-
2008
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “An Extension of PLSA for Document Clustering”, 17th ACM Conference on Information and Knowledge Management (CIKM 2008), Napa Valley, CA, United States, pp. 1345-1346, (ACM) (2008)
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Apprentissage d’un espace de concepts de mots pour une nouvelle représentation des données textuelles”, COnférence en Recherche d'Information et Applications (CORIA 2008), Trégastel, France, pp. 119-134 (2008)
- J.‑F. Pessiot, Y.‑M. Kim, M.‑R. Amini, N. Usunier, P. Gallinari : “Une méthode contextuelle d’extension de requête avec des groupements de mots pour le résumé automatique”, Conference en Recherche d'information et Applications, CORIA 2008, Trégastel, France, pp. 289-304 (2008)