DANG Thanh-Ha
Direction de recherche : Bernadette BOUCHON-MEUNIER
Co-encadrement : MARSALA Christophe
Mesures de discrimination et leurs applications en apprentissage inductif
De nos jours, les données disponibles deviennent de plus en plus volumineuses et elles peuvent être de nature très diverse : vagues, manquantes, numériques, symboliques par exemple. Or ce qui importe à l'utilisateur, ce ne sont pas les données elles-mêmes, mais les connaissances qu'on peut en extraire. Face à la quantité de données disponibles, le traitement efficace de données est problématique. Dans cette thèse, nous adoptons une approche d'extraction de connaissances à partir de données basée sur l'apprentissage inductif, plus précisément, par arbres de décision.
De façon générale, un système construit par apprentissage inductif a pour but de discriminer les individus de différentes classes. Sa qualité dépend de la capacité de discrimination qu'il acquiert au cours de l'apprentissage au travers des données. En particulier, un algorithme de construction d'arbre de décision procède par évaluation successive de la capacité de discrimination des attributs pour construire l'arbre de décision.
Nos travaux concernent l'étude des mesures de discrimination tant classiques que floues, et leurs applications en apprentissage inductif.
D'une part, nous nous intéressons aux mesures de discrimination dans la construction des arbres de décision. Dans un premier temps, ces mesures font l'objet d'une étude selon une approche axiomatique. Nous développons un nouveau modèle pour caractériser les mesures de discriminations floues. Dans un deuxième temps, nous proposons d'utiliser ces mesures dans les différentes étapes de la construction des arbres de décision flous.
D'autre part, nous étudions l'utilisation de ces mesures de discrimination pour d'autres aspects de l'apprentissage. Nous examinons tout d'abord le problème de l'évaluation des classifieurs et proposons une méthode basée sur l'utilisation de la notion de capacité de discrimination. Enfin, nous considérons le problème du traitement des données manquantes et proposons une technique de substitution des valeurs manquantes, qui restitue la capacité de discrimination des attributs.
Ces travaux sont validés sur des données conventionnelles et appliqués à des données réelles dans le cadre de deux applications qui concernent la classification de courriers électroniques et la classification de traces d'interactions homme-machine.
Soutenance : 10/07/2007
Membres du jury :
M. Alain Boucher (Professeur, IFI)
Mme Bernadette Bouchon-Meunier (Directeur de recherche, CNRS)
M. Christophe Marsala (Maître de conférences, Université Paris 6)
M. Patrice Perny (Professeur, Université Paris 6)
M. Mohammed Ramdani (Professeur, FST Mohammedia, Rapporteur)
M. Djamel A. Zighed (Professeur, Université Lyon 2, Rapporteur)
Publications 2004-2007
-
2007
- Th. Dang : “Mesures de discrimination et leurs applications en apprentissage inductif”, soutenance de thèse, soutenance 10/07/2007, direction de recherche Bouchon-meunier, Bernadette, co-encadrement : Marsala, Christophe (2007)
- Th. Delavallade, Th. Dang : “Using Entropy to Impute Missing Data in a Classification Task”, IEEE International Conference on Fuzzy Systems (Fuzz-IEEE), London, United Kingdom, pp. 577-582, (IEEE) (2007)
- B. Bouchon‑Meunier, Th. Ho, Th. Dang : “Logic mo va ung dung”, (Presses universitaires du Vietnam) (2007)
-
2006
- Th. Dang, Th. Delavallade : “Utilisation de l’entropie pour substituer des données manquantes symboliques dans un problème de classification supervisée”, SITA Conference, Mohammedia, Morocco, pp. 45-54 (2006)
- Th. Dang : “Modèle hiérarchique pour les mesures de discrimination floues”, Rencontres Francophones sur la Logique Floue et ses Applications, LFA 2006, Toulouse, France, pp. 21-28 (2006)
- Th. Dang, Ch. Marsala : “Extension of hierarchical model for fuzzy measures of discrimination”, IPMU Conference, Paris, France, pp. 1284-1291 (2006)
- Th. Dang, Ch. Marsala, B. Bouchon‑Meunier, A. Boucher : “Discrimination-based criteria for the evaluation of classifiers”, 7th International Conference on Flexible Query-Answering Systems, FQAS 2006, vol. 4027, Lecture Notes in Computer Science, Milan, Italy, pp. 552-563, (Springer) (2006)
-
2005
- M. Damez, Th. Dang, Ch. Marsala, B. Bouchon‑Meunier : “Fuzzy Decision Tree for User Modeling from Human-Computer Interactions”, 5th International Conference on Human System Learning (ICHSL'05), Marrakech, Morocco, pp. 287-302 (2005)
- A. Boucher, Th. Dang, Th. Le : “Classification vs recherche d’information : vers une caractérisation des bases d’images”, SFC 2005 - 12es Rencontres de la Société Francophone de Classification, Montreal, Canada, pp. 75-78, (Université du Québec à Montréal) (2005)
-
2004
- Th. Dang, D. Tran : “Comments on "fuzzy data dependencies and implication of fuzzy data dependencies"”, Fuzzy Sets and Systems, vol. 148 (1), pp. 153-156, (Elsevier) (2004)
- B. Bouchon‑Meunier, Th. Dang, Ch. Marsala : “Comparison of techniques for the construction of decision trees”, International Conference on Intelligent and Adaptive Systems and Software Engineering (IASSE'04), Nice, France, pp. 58-62 (2004)
- Th. Dang, B. Bouchon‑Meunier, Ch. Marsala : “Measures of information for inductive learning”, 10th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, Perugia, Italy, pp. 1495-1502 (2004)