Ajouter à votre agenda

Colloquium d’Informatique de Sorbonne Université
Leon Bottou, Facebook AI Research

Mardi 6 mars 2018 18h
Sorbonne Université - Faculté des Sciences

Une approche geometrique de l'apprentissage non supervise

Leon Bottou

Leon Bottou rec,ut son Diplome d'Ingenieur de l'Ecole Polytechnique (X84) en 1987, un Magistere de Mathematiques Fondamentales et Appliquees et d'Informatique de l'Ecole Normale Superieure in 1988, et un doctorat en informatique `a l'Universite de Paris-Sud en 1991. Son itineraire professionnel est passe par AT&T Bell Labs, AT&T Labs, NEC Lab et Microsoft Research. Il a rejoint Facebook AI Research en 2015. Son objectif `a long terme est de comprendre ce qu'est l'intelligence et comment on peut la reproduire. Bien que cet objectif demande des avancees conceptuelles que l'on ne peut pas encore anticiper, il est certainement necessaire de comprendre comment on apprend et comment on raisonne. Ses contributions les plus connues sont son travail sur les reseaux profonds dans les annees 1990, son travail sur l'apprentissage `a grande echelle et les algorithmes stochastiques dans les annees 2000, et, peut-etre, ses travaux plus recents sur l'inference causale en apprentissage automatique. Leon est aussi l'auteur principal du systeme de compression de documents DjVu.

Résumé

Les avancees recentes de l'intelligence artificielle reposent sur l'apprentissage supervise. Dans le cas le plus simple, chaque exemple d'apprentissage est etiquete avec la reponse que la machine doit imiter. C'est ainsi que l'on construit les systemes modernes de reconnaissance d'objets dans des images, de reconnaissance de la parole, ou de traduction automatique. Dans le cas de l'apprentissage par renforcement, la supervision consiste en une recompense qui sanctionne une sequence d'actions. Par exemple, on peut apprendre `a jouer au jacquet ou aux echecs en organisant un tournoi et en recompensant les victoires. Malgre ces succes, il faut bien reconnaitre que nos algorithmes utilisent des quantites d'exemples inhumaines : plus d'image qu'un humain ne peut voir en une vie entiere, plus de textes traduits qu'un humain ne peut lire dans une vie entiere, et plus de parties d'echecs de haut niveau que l'humanite tout entiere. La cle consiste donc `a comprendre l'apprentissage non supervise. Si tout le monde s'accorde pour dire que cela consiste `a utiliser des exemples d'apprentissages non etiquetes, il n'y a guere de consensus sur ce qu'une telle machine doit realiser. Du point de vue statistique, on ne peut rien faire de plus qu'estimer la distribution de probabilite qui regit les exemples. Mais en pratique, ce que l'on recherche est souvent l'identification des mecanisme causaux qui generent les exemples. En particulier nous voulons former des intuitions valides au sujet de ce qui se passerait en reponse `a des actions qui ne sont pas bien illustrees par les exemples d'apprentissage. Comment approcher cet objectif en apparence impossible ? Le premier pas est de montrer que la distribution de probabilite peut suggerer des relations causales. On sait bien que l'observation de correlations n'est pas un bon indice de causalite. Il se trouve en fait que des caracteristiques plus subtiles des distributions jointes donnent des indices plus fiables. Nous montrerons cela par des exemples simples et par une etude empirique de plus grande taille qui confirme l'existence de tels indices. Le second pas est de comprendre comment reconnaitre ces caracteristiques subtiles et les associer avec des modeles causaux simples. Il nous faut donc comparer la distribution observee des donnees avec la distribution associee `a ces modeles simples. Comme ces dernieres ne peuvent generalement pas etre representees par une fonction de densite, nous devons utiliser des modeles dits implicites, et des mesures de distances qui different de celles generalement utilisees pour l'estimation de densite. L'une des possibilites est la distance de Wasserstein qui donne des resultats pratiques prometteurs malgre des proprietes statistiques qui semblent desesperees en theorie. Nous proposons d'etudier plus precisement la geometrie que ces distances induisent sur l'espaces des mesures de probabilite, et nous montrons que la distance de Wasserstein donne des garanties utiles pour la convergence globale des algorithmes d'apprentissage. Cela ne prouve certainement pas que c'est la meilleure approche, mais nous esperons que cela nous aidera `a trouver comment finir ce second pas et commencer le suivant.

Master Class

L'un des moment particulièrement apprécié lors du colloquium est la « Masterclass » au cours de laquelle quelques doctorants du laboratoires ont l'opportunité de présenter leurs travaux à l'invité(e). Chaque présentation est suivie d'une discussion approfondie. Le programme complet est donné dans le document suivant.

Autres informations

Contact: Laure Soulier

Comité de Pilotage

La Master Class sera à 14h, .

Le cocktail aura lieu à 17h15, .


Sorbonne Université - Faculté des Sciences et Ingénierie
4, place Jussieu
Paris 5è (métro Jussieu)
Comment se rendre à Sorbonne Université (Faculté des Sciences et Ingénierie).

Informations en ligne

Annonce des Colloquium

Si vous souhaitez être informé des prochains événements, vous pouvez souscrire à la liste de diffusion.
Si vous ne souhaitez plus être informé des événements, vous pouvez vous désinscrire de la liste de diffusion