DEGRIS Thomas

毕业博士
科研组 : AnimatLab
离开日期 : 2007-4-27
https://lip6.fr/Thomas.Degris

责任导师 : Jean-Arcady MEYER

助理责任导师 : SIGAUD Olivier

Apprentissage par renforcement dans les processus de décision Markoviens factorisés

Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille car elles impliquent l'énumération d'un trop grand nombre d'états. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon plus compacte. Des méthodes de planification adaptées à ce cadre, basées sur la programmation dynamique ou la programmation linéaire, ont été proposées et obtiennent de bons résultats sur de tels problèmes. Cependant, la mise en oeuvre de ces méthodes nécessite que la structure du problème soit spécifiée manuellement a priori. Cette thèse étudie l'apprentissage automatique de la structure d'un problème d'apprentissage par renforcement représenté sous la forme d'un FMDP. À partir de l'expérience d'un agent dans son environnement, nous proposons d'utiliser des techniques d'apprentissage supervisé, en particulier l'induction d'arbres de décision, pour construire une représentation compacte du problème. Une fois le problème représenté, nous montrons qu'il est possible de réutiliser les méthodes de planification adaptées au cadre des FMDPs pour obtenir une solution au problème d'apprentissage par renforcement à résoudre. Nous proposons une étude empirique de cette approche en la mettant en oeuvre sur plusieurs problèmes stochastiques de grande taille classiques dans la littérature des FMDPs. Sur l'ensemble des problèmes étudiés, dans le cadre d'un apprentissage hors ligne puis en ligne, nous montrons que notre approche possède les capacités de généralisation et d'agrégation nécessaires à la résolution de ce type de problèmes. De plus, en appliquant nos outils au contrôle d'un personnage non joueur dans le jeu vidéo Counter Strike, nous montrons que les représentations construites par l'apprentissage peuvent être lisibles et manipulables par un opérateur humain.

答辩 : 2007-4-26

评委会 :

GARCIA Frédéric DR INRA [Rapporteur]
MUNOS Rémi DR INRIA [Rapporteur]
DUTECH Alain CR INRIA
LITTMAN Mickael Assistante Professor
PERNY Patrice PROF UPMC
SIGAUD Olivier PROF UPMC

离开日期 : 2007-4-27

2004-2009 刊物

Mentions légales
网站导航