OUDNI Amal

Docteur
Équipe : LFI
Date de départ : 31/08/2015
https://lip6.fr/Amal.Oudni

Direction de recherche : Marie-Jeanne LESOT

Co-encadrement : RIFQI Maria

Fouille de données par extraction de motifs graduels : contextualisation et enrichissement

Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation.
Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité.
Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération.
Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'extension tenant compte de la densité des données. Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription.
Nous définissons aussi les motifs graduels accélérés, qui qualifient les corrélations entre les valeurs d'attributs et contextualisent les motifs graduels par l'expression linguistique « rapidement », comme par exemple « plus la température augmente, plus l'humidité augmente rapidement ». Nous traduisons cet effet comme une contrainte de convexité que nous modélisons comme une contrainte de covariation supplémentaire, qui s'exprime dans le même formalisme que les contraintes d'ordre des motifs classiques. Nous proposons et étudions deux méthodes d'extraction, par filtrage a posteriori et intégration dans le processus de génération.
Pour chacune des quatre contextualisation proposées, nous étudions et formalisons la sémantique et l'interprétation souhaitées. Nous proposons ensuite des mesures de qualité pour évaluer la validité des motifs proposés. Nous proposons et implémentons des algorithmes efficaces d'extraction automatique des motifs qui maximisent les critères de qualité proposés. Enfin, nous réalisons une étude expérimentale, à la fois sur des données jouets pour étudier et analyser le comportement des approches proposées, et sur des données réelles pour montrer la pertinence des approches et l'intérêt des motifs extraits. Les expérimentations réalisées pour chaque approche permettent de valider l'apport des différentes formes de motifs proposées, ainsi que leur interprétation associée.

Soutenance : 09/07/2014

Membres du jury :

Anne Laurent,Professeur LIRMM - Université Montpellier 2, [Rapporteur]
Olivier Pivert,ProfesseurENSSAT - Université Rennes 1, [Rapporteur]
Bernd Amann, Professeur LIP6-UPMC
Sadok Ben Yahia, Professeur URPAH-Université des Sciences de Tunis
Marie-Jeanne Lesot, Maître de Conférences[HDR]LIP6-UPMC
Maria Rifqi, Maître de Conférences[HDR]LEMMA, Université Paris 2

Date de départ : 31/08/2015

Publications 2012-2015

Mentions légales
Carte du site