LESOT Marie-Jeanne

Supervision : Bernadette BOUCHON-MEUNIER

Co-supervision : D'ALCHÉ-BUC Florence

Classification non supervisée pour la visualisation de données structurées et la construction de prototypes

La classification non supervisĂ©e, ou clustering, a pour objectif la dĂ©composition d'un ensemble de donnĂ©es en sous-groupes homogĂšnes et distincts, qui rĂ©sument la base initiale et conduisent par lĂ  Ă  une reprĂ©sentation simplifiĂ©e des donnĂ©es. Toutefois, il est nĂ©cessaire d'enrichir les informations brutes de cette dĂ©composition pour aider Ă  leur exploitation. Nous considĂ©rons dans ce but deux modes d'enrichissement, basĂ©s respectivement sur une caractĂ©risation visuelle, qui fournit simultanĂ©ment une reprĂ©sentation graphique des donnĂ©es, et une caractĂ©risation par prototypes flous, qui se place Ă  un niveau plus sĂ©mantique. D'une part, nous considĂ©rons la caractĂ©risation visuelle de donnĂ©es structurĂ©es correspondant par exemple Ă  des documents textuels pour lesquels une organisation hiĂ©rarchique est disponible, par le biais de titres et de sous-titres. Cette problĂ©matique est abordĂ©e dans le cadre du clustering topographique Ă  noyau, pour lequel nous dĂ©finissons un critĂšre d'Ă©valuation prenant en compte son double objectif. Nous proposons aussi un critĂšre de sĂ©lection de noyau applicable dans un contexte d'apprentissage non supervisĂ© ainsi qu'un noyau pour traiter les donnĂ©es textuelles prĂ©cĂ©dentes. D'autre part, le clustering avec caractĂ©risation par prototypes flous doit fournir une description interprĂ©table de l'ensemble de donnĂ©es : la reprĂ©sentation doit permettre une mise en correspondance des groupes identifiĂ©s avec des concepts naturels utilisĂ©s intuitivement pour dĂ©crire les donnĂ©es. Cette tĂąche d'extraction de concepts descriptifs, abordĂ©e dans le cadre de la thĂ©orie des sous-ensembles flous, peut ĂȘtre dĂ©composĂ©e en trois Ă©tapes principales : identification des concepts, reprĂ©sentation des concepts identifiĂ©s et enfin Ă©tiquetage linguistique, pour chacune desquelles nous proposons des outils, sous la forme d'un algorithme de clustering, une mĂ©thode de construction de prototypes et des coefficients d'exceptionnalitĂ©.

Defence : 01/31/2005 - 14h00 - Site Scott - salle C.931

Jury members :

Florence d'Alché-Buc (professeur, Université Evry-Val d'Essonne), directrice de thèse
Bernadette Bouchon-Meunier (directrice de recherche, CNRS), directrice de thèse
Carl Frélicot (professeur, Université La Rochelle), rapporteur
Hélène Paugam-Moisy (professeur, Université Lyon II), rapportrice
Patrice Perny (professeur, Université Paris VI), examinateur
Michèle Sebag (directrice de recherche, CNRS), examinatrice

5 PhD students (Supervision / Co-supervision)

  • BHAN Milan : Generation of counterfactual texts
  • BOVE Clara : Designing User-centered Explainable Interfaces for Machine Learning Interpretability
  • JEYASOTHY Adulam : interprĂ©tabilitĂ© des modĂšles en apprentissage automatique
  • MUNRO Yann : ExplicabilitĂ© des systĂšmes d'intelligence artificielle hybride dans un contexte d'interactions avec des humains
  • PANTIN JĂ©rĂ©mie : Detection and semantic characterisation of textual outliers

12 PhD graduated 2011 - 2022

2001-2022 Publications