GÉRALD Thomas

Docteur
Équipe : MLIA
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 26-00, Étage 5, Bureau 524
    4 place Jussieu
    75252 PARIS CEDEX 05

Tel: 01 44 27 48 44, Thomas.Gerald (at) nulllip6.fr
https://lip6.fr/Thomas.Gerald

Direction de recherche : Patrick GALLINARI

Co-encadrement : BASKIOTIS Nicolas

Apprentissage de Représentation pour la classification large échelle

Ces précédentes décennies ont vu l'essor des nouvelles technologies simplifiant le partage de l'information. Aujourd'hui, une importante part des données est accessible pour un grand nombre d'utilisateurs. Dans cette thèse, nous proposons d'étudier les problématiques d'annotations de documents qui à postériori permettront de faciliter l'accès à l'information. On s'intéressera au domaine de la classification extrême qui caractérise la tâche d'annotation automatique dès lors que le nombre d'étiquettes est important. De nombreuses difficultés découlent de la taille et de la complexité de ces données : le temps de prédiction, le stockage ainsi que la pertinence des annotations en sont les plus représentatifs. Les récentes recherches traitant de cette problématique reposent aujourd'hui sur trois types d'approches: les approches ensemblistes apprenant un large ensemble de classifieurs simples; les méthodes "hiérarchiques" organisant une structure de classifieurs simples; les approches par représentations plongeant dans des espaces de faible dimension les documents. Dans cette thèse, nous étudierons les approches de classification par représentation. À travers nos contributions, nous proposerons différentes approches pour pallier aux problématiques de temps de prédiction et de structure de l'espace de représentation. Dans un premier temps, nous étudierons des représentations discrètes avec pour objectifs de trouver les meilleures représentations possibles tout en garantissant un temps d'inférence bas. Dans un deuxième temps, nous considérerons les plongements hyperboliques afin de profiter des qualités de cet espace pour la représentation de données structurées. Avec des expériences sur des corpus réels, nous démontrerons l'intérêt des approches proposées.

Soutenance : 17/11/2020 - 14h - https://zoom.us/j/95444893316?pwd=d0tIVVJzM3k5am5KQ2hHNXAyRGRadz09

Membres du jury :

Massih Reza Amini (Professeur à l'Université Grenoble Alpes, AMA) [Rapporteur]
Pascale Kuntz-Cosperec (Professeure à Polytech Nantes, Laboratoire des Sciences du Numérique de Nantes) [Rapporteur]
Patrick Gallinari (LIP6, MLIA)
Nicolas Baskiotis (LIP6, MLIA)
Julien Tierny (Chargé de Recherche à Sorbonne université, LIP6, équipe APR)
Xiangliang Zhang (Associate Professor à King Abdullah University of Science and Technology, CEMSE)

Publications 2020

  • 2020
    • Th. Gérald : “Apprentissage de Représentation pour la classification large échelle”, thèse, soutenance 17/11/2020, direction de recherche Gallinari, Patrick, rapporteurs : BASKIOTIS Nicolas (2020)
    • N. Miolane, N. Guigui, A. Le Brigant, J. Mathe, B. Hou, Y. Thanwerdas, S. Heyder, O. Peltre, N. Koep, H. Zaatiti, H. Hajri, Y. Cabanes, Th. Gerald, P. Chauchat, Ch. Shewmake, D. Brooks, B. Kainz, C. Donnat, S. Holmes, X. Pennec : “Geomstats: A Python Package for Riemannian Geometry in Machine Learning”, Journal of Machine Learning Research, vol. 21 (223), pp. 1-9, (Microtome Publishing) (2020)
    • N. Miolane, N. Guigui, H. Zaatiti, Ch. Shewmake, H. Hajri, D. Brooks, A. Le Brigant, J. Mathe, B. Hou, Y. Thanwerdas, S. Heyder, O. Peltre, N. Koep, Y. Cabanes, Th. Gerald, P. Chauchat, B. Kainz, C. Donnat, S. Holmes, X. Pennec : “Introduction to Geometric Learning in Python with Geomstats”, SciPy 2020 - 19th Python in Science Conference, Austin, Texas, United States, pp. 48-57 (2020)