DEGRIS Thomas

Docteur
Équipe : AnimatLab
Date de départ : 27/04/2007
https://lip6.fr/Thomas.Degris

Direction de recherche : Jean-Arcady MEYER

Co-encadrement : SIGAUD Olivier

Apprentissage par renforcement dans les processus de décision Markoviens factorisés

Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille car elles impliquent l'énumération d'un trop grand nombre d'états. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon plus compacte. Des méthodes de planification adaptées à ce cadre, basées sur la programmation dynamique ou la programmation linéaire, ont été proposées et obtiennent de bons résultats sur de tels problèmes. Cependant, la mise en oeuvre de ces méthodes nécessite que la structure du problème soit spécifiée manuellement a priori. Cette thèse étudie l'apprentissage automatique de la structure d'un problème d'apprentissage par renforcement représenté sous la forme d'un FMDP. À partir de l'expérience d'un agent dans son environnement, nous proposons d'utiliser des techniques d'apprentissage supervisé, en particulier l'induction d'arbres de décision, pour construire une représentation compacte du problème. Une fois le problème représenté, nous montrons qu'il est possible de réutiliser les méthodes de planification adaptées au cadre des FMDPs pour obtenir une solution au problème d'apprentissage par renforcement à résoudre. Nous proposons une étude empirique de cette approche en la mettant en oeuvre sur plusieurs problèmes stochastiques de grande taille classiques dans la littérature des FMDPs. Sur l'ensemble des problèmes étudiés, dans le cadre d'un apprentissage hors ligne puis en ligne, nous montrons que notre approche possède les capacités de généralisation et d'agrégation nécessaires à la résolution de ce type de problèmes. De plus, en appliquant nos outils au contrôle d'un personnage non joueur dans le jeu vidéo Counter Strike, nous montrons que les représentations construites par l'apprentissage peuvent être lisibles et manipulables par un opérateur humain.

Soutenance : 26/04/2007

Membres du jury :

GARCIA Frédéric DR INRA [Rapporteur]
MUNOS Rémi DR INRIA [Rapporteur]
DUTECH Alain CR INRIA
LITTMAN Mickael Assistante Professor
PERNY Patrice PROF UPMC
SIGAUD Olivier PROF UPMC

Date de départ : 27/04/2007

Publications 2004-2009

Mentions légales
Carte du site