Annuaire

LIU Rutian

Post-doctorante à Sorbonne Université
Équipe : BD

Direction de recherche : Bernd AMANN
Co-encadrement : GANÇARSKI Stéphane

Services sémantiques pour l’aide à la découverte et la transformation de données dans un contexte de sources de données analytiques

La production de données analytiques a dépassé de loin le cadre du développement de bases de données pour des applications traditionnelles. De plus en plus de données sont maintenant créées par des scientifiques et des «?data scientists?» qui utilisent des outils de préparation de données agiles déployés dans des environnements Big Data. Malgré ces technologies, la collecte, la préparation et la personnalisation d’informations pour produire des données de bonne qualité reste une tâche difficile.

Dans cette thèse, nous visons à aider les utilisateurs qui veulent augmenter des tables de données analytiques avec des attributs provenant d’autres tables sémantiquement liés. Nous introduisons les graphes d’attributs comme une nouvelle façon concise et naturelle de représenter des dépendances fonctionnelles dans des dimensions hiérarchiques. Nous introduisons la notion d’augmentation de schéma qui étend la notion de complément de schéma aux contextes des données analytiques. Nous introduisons plusieurs opérations de réduction pour éviter une multiplication de lignes dans les tables augmentées. Nous définissons des critères de qualité formels et des algorithmes pour contrôler l’exactitude, la non-ambiguïté et l’exhaustivité des augmentations générées. Nous décrivons l’implémentation de notre solution en tant que service REST au sein de la plate-forme SAP HANA et fournissons une description détaillée de nos algorithmes. Enfin, nous évaluons la performance de nos algorithmes pour découvrir et calculer les augmentations et analysons l’efficacité de notre service REST avec deux scénarios d’application.

Soutenance : 24/06/2020

Membres du jury :

Mme. Bonifati Angela, Professeur, LIRIS, Université Lyon 1 [Rapporteur]
M. Maabout Sofian, Maître de conférences, LaBRI, Université de Bordeaux [Rapporteur]
M. Darmont Jérôme, Professeur, Laboratoire ERIC, Université Lyon 2
Mme. Lesot Marie-Jeanne, Maître de conférences, LIP6, Sorbonne Université
M. Amann Bernd, Professeur, LIP6, Sorbonne Université
M. Gançarski Stéphane, Maître de conférences, LIP6, Sorbonne Université

Date de départ : 24/06/2020

Publications 2019-2023

2023
- E. Simon, B. Amann, R. Liu, S. Gançarski : “Controlling the Correctness of Aggregation Operations During Sessions of Interactive Analytic Queries”, Journal of data and information quality, (ACM) (2023)
2022
- E. Simon, B. Amann, R. Liu, S. Gançarski : “Controlling the Correctness of Aggregation Operations During Sessions of Interactive Analytic Queries”, (2022)
2020
- R. Liu : “Semantic Services for Assisting Users to Augment Data in the Context of Analytic Data Sources”, thèse, soutenance 24/06/2020, direction de recherche Amann, Bernd, co-encadrement : Gançarski, Stéphane (2020)
- R. Liu, E. Simon, B. Amann, S. Gançarski : “Discovering and merging related analytic datasets”, Information Systems, vol. 91, pp. 101495, (Elsevier) (2020)
2019
- R. Liu, E. Simon, B. Amann, S. Gançarski : “Augmenting Analytic Datasets Using Natural and Aggregate-based Schema Complements”, Post-actes BDA 2019 -Gestion de Données Principes Technologies et Applications, Lyon, France (2019)