PANTIN Jérémie

Docteur (ATER, Sorbonne Université)
Équipe : LFI
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 26-00, Étage 5, Bureau 504
    4 place Jussieu
    75252 PARIS CEDEX 05

Tel: 01 44 27 88 87, Jeremie.Pantin (at) nulllip6.fr
https://lip6.fr/Jeremie.Pantin

Direction de recherche : Christophe MARSALA

Détection et caractérisation sémantique de données textuelles aberrantes

La détection des données aberrantes est un problème récurrent dans l’apprentissage automatique et consiste à identifier les données significativement différentes du reste de l'ensemble de données. Dans ce cadre, nous nous penchons sur l’identification de telles observations avec des données textuelles. Le bon déroulement de leur analyse comporte plusieurs freins, dont la formalisation et la définition d’une aberration textuelle. À proprement parler, une grande différence existe entre une aberration syntaxique et sémantique. Afin de pallier cette ambiguïté, nous proposons une nouvelle taxonomie qui permet d’identifier ces aberrations.
Dans ce contexte, nous soulevons plusieurs types d’aberrations, ainsi que plusieurs niveaux de difficulté associés, et introduisions une nouvelle méthode pour les étudier. Avec cette méthode, il est possible d’utiliser un très grand nombre de jeux de données et de souligner les forces et faiblesses des approches de détection d’anomalies et de détection d’aberrations. La détection d'aberrations peut être réalisée avec des méthodes d'ensemble. Plusieurs représentations du texte peuvent être utilisées en parallèle de plusieurs méthodes de détection, augmentant ainsi l'efficacité et la robustesse face aux aberrations difficiles.
Une nouvelle approche profitant de l’apprentissage robuste et de l’apprentissage par ensemble est présentée. Nous connectons ces travaux avec les travaux de XAI et de représentation des données. Enfin, une application de nos travaux est proposée sur la tâche de résumé de texte par abstraction non-supervisé. Dans ce scénario, l'analyse des valeurs aberrantes aide à filtrer les phrases non-pertinentes et démontre une amélioration de la qualité du résumé.

Soutenance : 11/09/2023

Membres du jury :

LAURENT Anne (Université de Montpellier) [Rapporteur]
SMITS Gregory (IMT Atlantique) [Rapporteur]
AMANN Bernd (Sorbonne Université)
MARSALA Christophe (Sorbonne Université)

Publications 2022-2024

Mentions légales
Carte du site