Séminaire ApprentissageRSS

Visualisation et algorithmes génétiques pour la fouille de grands ensembles de données

16/03/2006
Intervenant(s) : Lydia Boudjeloud (Institut d’Electronique Fondamentale IEF - Université Paris Sud 11)
Nous présentons des approches coopératives combinant des méthodes interactives de visualisation et des méthodes automatiques de sélection de dimensions pour l’extraction de connaissances à partir de données. Nous présentons un algorithme génétique de sélection de dimensions et deux fonctions d’évaluation, la première à base de distance pour évaluer un sous-ensemble de dimension pour la détection d’individus atypiques (ou outliers) dans les ensembles de données ayant un grand nombre de dimensions. La seconde est une mesure d’évaluation pour la sélection de dimensions en classification non supervisée (clustering). Cette mesure nous permet à la fois de retrouver les mêmes clusters que dans l’ensemble de données avec toutes ses dimensions et des clusters pouvant contenir très peu d’éléments (des outliers). L’interprétation visuelle des résultats obtenus nous indique les dimensions impliquées pour le clustering ou la détection d’outlier. Nous utilisons aussi les méthodes de visualisation pour expliquer et interpréter les résultats pour la détection d’outlier. Nous proposons ainsi un modèle de l’expertise visuelle de l’expert des données pour qualifier les éléments détectés par exemple en tant qu’erreurs ou individus atypiques (outliers). Enfin nous présentons un algorithme génétique semi-interactif permettant d’impliquer l’utilisateur dans le processus de sélection et d’évaluation du sous-ensemble de dimensions à utiliser.

Plus d'informations ici …
Javier.Diaz (at) nulllip6.fr
Mentions légales
Carte du site