BHAN Milan

Doctorant
Équipe : LFI
Date d'arrivée : 12/04/2022
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 26-00, Étage 5, Bureau 504
    4 place Jussieu
    75252 PARIS CEDEX 05

Tel: 01 44 27 88 87, Milan.Bhan (at) nulllip6.fr
https://lip6.fr/Milan.Bhan

Direction de recherche : Marie-Jeanne LESOT

Co-encadrement : Jean-Noël VITTAUT

Génération de textes contre-factuels

L’objectif de cette thèse est d’évaluer la possibilité de générer des contrefactuels dans le cadre du NLP sous diverses formes de contraintes comme celles de plausibilité, de justesse grammaticale ou d’orientation vers un but. Les générateurs de contrefactuels seront évaluées comme source d’interprétabilité et comme m´méthode de renforcement de la robustesse des modèles de langage manipulés. Ainsi, ce travail permettra de répondre aux questions suivantes : o Dans quelle mesure les méthodes post-hoc agnostiques existantes sont-elles adaptées aux modèles de deep learning appliqués au NLP ? o Comment interpréter les modèles de deep learning appliqués au NLP grâce aux paramètres propres à leur structure ? Peut-on en tirer une méthode de génération de contrefactuels ? o De quelle manière peut-on intégrer les contraintes de plausibilité, d’efficacité et d’orientation vers un but en NLP `a la génération de contrefactuels ? Pour ce faire, les approches proposées seront testées sur divers jeux de données comme l’IMDB Database. Les modèles de langage à l’état de l’art de type BERT (Bidirectionnal Encoder Representation from Transformers) et autres dérivés d’architecture de Transformers seront mobilisés pour traiter ces questions. En particulier, les coefficients d’attention inhérents aux architectures de type Transformers serony l’objet d’investigations poussées. Enfin, l’utilisation d’algorithmes d’apprentissage par renforcement (reinforcement learning) sera envisagée lors du processus de création de texte n´nécessaire à la génération d’exemples contrefactuels. Des générateurs de textes autres que antonymiques seront testées afin d’améliorer la qualité des contrefactuels générés. Les méthodes de contrefactuels seront systématiquement testées et utilisées afin d’effectuer de la data augmentation et de la détection d’éventuels biais afin de rendre les modèles plus robustes.