DEGRIS Thomas

PhD graduated
Team : AnimatLab
Departure date : 04/27/2007
https://lip6.fr/Thomas.Degris

Supervision : Jean-Arcady MEYER

Co-supervision : SIGAUD Olivier

Apprentissage par renforcement dans les processus de décision Markoviens factorisés

Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille car elles impliquent l'énumération d'un trop grand nombre d'états. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon plus compacte. Des méthodes de planification adaptées à ce cadre, basées sur la programmation dynamique ou la programmation linéaire, ont été proposées et obtiennent de bons résultats sur de tels problèmes. Cependant, la mise en oeuvre de ces méthodes nécessite que la structure du problème soit spécifiée manuellement a priori. Cette thèse étudie l'apprentissage automatique de la structure d'un problème d'apprentissage par renforcement représenté sous la forme d'un FMDP. À partir de l'expérience d'un agent dans son environnement, nous proposons d'utiliser des techniques d'apprentissage supervisé, en particulier l'induction d'arbres de décision, pour construire une représentation compacte du problème. Une fois le problème représenté, nous montrons qu'il est possible de réutiliser les méthodes de planification adaptées au cadre des FMDPs pour obtenir une solution au problème d'apprentissage par renforcement à résoudre. Nous proposons une étude empirique de cette approche en la mettant en oeuvre sur plusieurs problèmes stochastiques de grande taille classiques dans la littérature des FMDPs. Sur l'ensemble des problèmes étudiés, dans le cadre d'un apprentissage hors ligne puis en ligne, nous montrons que notre approche possède les capacités de généralisation et d'agrégation nécessaires à la résolution de ce type de problèmes. De plus, en appliquant nos outils au contrôle d'un personnage non joueur dans le jeu vidéo Counter Strike, nous montrons que les représentations construites par l'apprentissage peuvent être lisibles et manipulables par un opérateur humain.

Defence : 04/26/2007

Jury members :

GARCIA Frédéric DR INRA [Rapporteur]
MUNOS Rémi DR INRIA [Rapporteur]
DUTECH Alain CR INRIA
LITTMAN Mickael Assistante Professor
PERNY Patrice PROF UPMC
SIGAUD Olivier PROF UPMC

Departure date : 04/27/2007

2004-2009 Publications

Mentions légales
Site map