Bases de données multidimensionnelles floues et leur utilisation pour la fouille de données

A. Laurent

LIP6 2002/022: THÈSE de DOCTORAT de l'UNIVERSITÉ PARIS 6 LIP6 / LIP6 research reports
231 pages - Septembre/September 2002 - French document.

Get it : 4628 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : Bases de données multidimensionnelles floues et leur utilisation pour la fouille de données
Titre anglais : Fuzzy Multidimensional Databases and Data Mining


Résumé : Devant l'accroissement des volumes de données à traiter, les entrepôts de données se sont développés depuis le début des années 1990 afin de fournir aux décideurs des systèmes dédiés à l'analyse des données. Les systèmes opérationnels, utilisés pour les applications transactionnelles (OLTP - On-Line Transaction Processing), se sont vite révélés inadaptés pour les environnements décisionnels. Les bases de données multidimensionnelles ont donc émergé pour répondre aux besoins spécifiques d'analyse multidimensionnelle en ligne (OLAP - On-Line Analytical Processing). Cependant, les données issues du monde réel sont souvent entachées d'imperfection et les requêtes que les utilisateurs souhaitent poser sont souvent vagues. La théorie des sous-ensembles flous permet d'améliorer les systèmes d'information, notamment pour l'interprétation qualitative de données quantitatives (numériques). Les informations présentées à l'utilisateur (sous forme de règles par exemple)sont plus compréhensibles et se généralisent mieux. L'objectif de notre travail est donc de définir un cadre formel pour la mise en ouvre de systèmes de fouille de données floues avec des outils OLAP. Nous proposons une extension du modèle multidimensionnel pour le traitement de données imparfaitement connues et de requêtes flexibles. Ce modèle étendu est intégré dans une architecture comprenant des outils de fouille de données floue. En particulier, nous introduisons un système pour la construction d'arbres de décision flous et la génération automatique de résumés linguistiques à partir de bases de données multidimensionnelles floues, utilisées comme support de fouille de données. Nous étudions également le problème des cellules vides, sous ses aspects sémantiques, pour la recherche d'anomalies.

Abstract : Since the early 1990s, data warehousing has provided an efficient framework to deal with huge amounts of data in an analytical view. It has appeared that transactional systems (OLTP - On-Line Transactional Processing) are not suitable for fast multidimensional analysis. For this reason, multidimensional databases have emerged to support OLAP tools (On-Line Analytical Processing). However, real world data are often imperfect, being either uncertain, or imprecise. This explains why it is important for database management systems to be able to cope with flexible queries. In this framework, fuzzy set theory is appropriate for improving information systems in particular for qualitative interpretation of quantitative data (numerical data). The information provided to users (for instance by means of rules) is more understandable, and generalizable. Our work aims at defining an approach to perform OLAP-based mining using fuzzy multidimensional databases and fuzzy data mining algorithms. We propose an extension of multidimensional databases to handle imperfect information and flexible multidimensional queries. We also integrate fuzzy multidimensional databases with machine learning methods. More specifically, using the proposed model, we introduce a system that allows to build fuzzy decision trees and to generate linguistic summaries using the proposed data model. A general architecture is provided, based on fuzzy multidimensional databases as a support for knowledge discovery. We also study from a semantic point of view the problem of abnomalies related to the presence of empty cells.


Mots-clés : Bases de données multidimensionnelles, OLAP, fouille de données, logique floue, résumés flous

Key-words : Multidimensional Databases, OLAP, Data Mining, Fuzzy Logic, Fuzzy Summaries


Publications internes LIP6 2002 / LIP6 research reports 2002

Responsable Éditorial / Editor :Ghislaine.Mary@lip6.fr