Annuaire

PANTIN Jérémie

Post-doctorant à Sorbonne Université
Équipe : LFI
https://webia.lip6.fr/~pantin/

Direction de recherche : Christophe MARSALA

Détection et caractérisation sémantique de données textuelles aberrantes

La détection des données aberrantes est un problème récurrent dans l’apprentissage automatique et consiste à identifier les données significativement différentes du reste de l'ensemble de données. Dans ce cadre, nous nous penchons sur l’identification de telles observations avec des données textuelles. Le bon déroulement de leur analyse comporte plusieurs freins, dont la formalisation et la définition d’une aberration textuelle. À proprement parler, une grande différence existe entre une aberration syntaxique et sémantique. Afin de pallier cette ambiguïté, nous proposons une nouvelle taxonomie qui permet d’identifier ces aberrations.

Dans ce contexte, nous soulevons plusieurs types d’aberrations, ainsi que plusieurs niveaux de difficulté associés, et introduisions une nouvelle méthode pour les étudier. Avec cette méthode, il est possible d’utiliser un très grand nombre de jeux de données et de souligner les forces et faiblesses des approches de détection d’anomalies et de détection d’aberrations. La détection d'aberrations peut être réalisée avec des méthodes d'ensemble. Plusieurs représentations du texte peuvent être utilisées en parallèle de plusieurs méthodes de détection, augmentant ainsi l'efficacité et la robustesse face aux aberrations difficiles.

Une nouvelle approche profitant de l’apprentissage robuste et de l’apprentissage par ensemble est présentée. Nous connectons ces travaux avec les travaux de XAI et de représentation des données. Enfin, une application de nos travaux est proposée sur la tâche de résumé de texte par abstraction non-supervisé. Dans ce scénario, l'analyse des valeurs aberrantes aide à filtrer les phrases non-pertinentes et démontre une amélioration de la qualité du résumé.

Soutenance : 11/09/2023

Membres du jury :

LAURENT Anne (Université de Montpellier) [Rapporteur]
SMITS Gregory (IMT Atlantique) [Rapporteur]
AMANN Bernd (Sorbonne Université)
MARSALA Christophe (Sorbonne Université)

Date de départ : 30/09/2024

Publications 2022-2024

Toutes Communications Thèse

2024
- J. Pantin, Ch. Marsala : “Détection d’anomalies textuelles par ensemble d’autoencodeurs robustes”, Revue des Nouvelles Technologies de l'Information, vol. Extraction et Gestion des Connaissances, RNTI-E-40, Dijon, France, pp. 319-326 (2024)
2023
- J. Pantin : “Détection et caractérisation sémantique de données textuelles aberrantes”, thèse, soutenance 11/09/2023, direction de recherche Marsala, Christophe (2023)
2022
- J. Pantin, Ch. Marsala, M.‑J. Lesot : “Analyse de Données Aberrantes pour le Texte: Taxonomie et Étude Expérimentale”, Actes de l'atelier sur la fouille de textes - TextMine'22, Blois, France, pp. 15-26 (2022)