CASTANET Nicolas

Doctorant
Équipe : MLIA
Date d'arrivée : 01/10/2021
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 25-26, Étage 5, Bureau 510
    4 place Jussieu
    75252 PARIS CEDEX 05

Tel: 01 44 27 47 23, Nicolas.Castanet (at) nulllip6.fr
https://lip6.fr/Nicolas.Castanet

Direction de recherche : Sylvain LAMPRIER

Co-encadrement : SIGAUD Olivier

Méthodes de Curriculum Automatique pour problèmes à récompenses parcimonieuses en apprentissage par renforcement

Une grande difficulté de l'apprentissage par renforcement est le compromis exploration/exploitation qu'il faut régler pour s'orienter efficacement dans un espace de recherche très vaste et trouver des politiques adaptées à une tâche fixée. Parmi les propositions pour obtenir efficacement des agents (ou groupes d'agents) capables de résoudre des tâches complexes, le curriculum reinforcement learning propose de décomposer le problème en sous-problèmes plus simples à résoudre et de définir un parcours d'apprentissage adapté aux capacités des agents. L'espoir est alors que des compétences acquises sur des tâches plus simples accélèrent l'apprentissage sur la tâche finale visée. Bien souvent, le curriculum learning nécessite une connaissance experte du problème visé pour définir les successions de sous-tâches à considérer. Dans ce cadre, des techniques comme le reward shaping permettent de transférer des connaissances apprises sur un problème à un autre, sans biaiser la solution optimale du problème cible. Quelques travaux proposent d’apprendre les enchaînements entre sous-tâches, mais le découpage reste bien souvent réalisé manuellement. Pour dépasser cela, d’autres approches proposent une augmentation graduelle des capacité de l’agent plutôt qu’une altération de l’environnement. Mais cela reste cantonné à des environnements spécifiques, avec définitions d’architectures d’agent spécifiées selon des connaissances expertes. L’idée de cette thèse est d’étudier les méthodes de curriculum automatique, qui permettent un apprentissage progressif malgré les contraintes de l’environnement, en apprenant à définir des fonctions de récompense intrinsèques guidant l’évolution de l’agent vers les objectifs visés. Dans ce cadre, un premier type d’approche efficace propose de pré-apprendre à explorer le monde, en se servant d’états atteints au cours de trajectoires échantillonnées, que l’on considère comme buts à atteindre desquels on peut tirer de l’expérience (ce qui permet de répondre à des problématiques de parcimonie des récompenses de l’environnement). Une autre idée séduisante est de se baser sur des architectures adverses de pré-apprentissage de l’environnement, où deux agents similaires avec des objectifs contradictoires s'affrontent: un agent oracle cherche à proposer à un agent élève des problèmes qu'il est capable lui-même de résoudre, et sur lesquels l'élève a des difficultés. Les deux agents progressent ensemble, ce qui mène le processus à complexifier la tâche au fur et à mesure de l'apprentissage. L’idée est de déterminer la “zone de développement proximal” de l'élève, s’inspirant ainsi des méthodes pédagogiques chez l’humain. Dans une même veine, l’approche GoalGAN entraîne un générateur de buts adaptés, via l’utilisation d’un discriminateur adverse qui vise à discriminer les buts selon leur intérêt pour l’agent apprenant. D’autres approches visent à encourager la curiosité, via l’apprentissage de fonctions de récompenses intrinsèques favorisant l’exploration. Description L'objectif de la thèse sera dans un premier temps de comparer plusieurs de ces approches sur différents environnements d'application, afin d'en exhiber les avantages et inconvénients. Pour ce qui est des méthodes, en s'appuyant sur une revue du domaine, on étudiera en particulier HER, ICM-A3C, Asymmetric self-play et éventuellement sa version hiérarchique, GoalGAN, et les approches basées sur le Learning Progress. Pour ce qui est des environnements, on commencera par des études en profondeur sur des environnements très simples en petite dimension (par exemple MountainCar ou CartPole). Selon les résultats obtenus, on étendra les approches retenues à des environnements plus complexes, qui seront choisis en fonction des propriétés que l’on voudra mettre en évidence, tels que des problèmes de contrôle robotique du type Mujoco Fetch, des problèmes à états discrets où l’agent interagit avec des objets, du type MazeBase, des environnements visuels du type VizDoom ou de la navigation collaborative multi-agents, par exemple l’environnement de MADDPG. Dans un second temps, il s’agira de s’intéresser à des approches basées sur des modèles, qui ont un fort potentiel en terme d’efficacité d’échantillonnage, et n’ont encore que peu été explorées dans des contextes à récompenses parcimonieuses, dans un but d’exploration et de curiculum automatique. Une piste que l’on souhaite poursuivre consiste en l’apprentissage de dynamiques simplifiées, adaptées au compétences courantes de l’agent, que l’on ferait s’approcher progressivement des vraies dynamiques observées sur l’environnement cible. D’autres possibilités incluent le RL hiérarchique et l’apprentissage de contrôleurs permettant la définition de sous-buts adaptés