DEGRIS Thomas

Docteur
Équipe : AnimatLab
Date de départ : 27/04/2007
https://lip6.fr/Thomas.Degris

Direction de recherche : Jean-Arcady MEYER

Co-encadrement : SIGAUD Olivier

Apprentissage par renforcement dans les processus de décision Markoviens factorisés

Les méthodes classiques d'apprentissage par renforcement ne sont pas applicables aux problèmes de grande taille car elles impliquent l'énumération d'un trop grand nombre d'états. Les Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes de façon plus compacte. Des méthodes de planification adaptées à ce cadre, basées sur la programmation dynamique ou la programmation linéaire, ont été proposées et obtiennent de bons résultats sur de tels problèmes. Cependant, la mise en oeuvre de ces méthodes nécessite que la structure du problème soit spécifiée manuellement a priori. Cette thèse étudie l'apprentissage automatique de la structure d'un problème d'apprentissage par renforcement représenté sous la forme d'un FMDP. À partir de l'expérience d'un agent dans son environnement, nous proposons d'utiliser des techniques d'apprentissage supervisé, en particulier l'induction d'arbres de décision, pour construire une représentation compacte du problème. Une fois le problème représenté, nous montrons qu'il est possible de réutiliser les méthodes de planification adaptées au cadre des FMDPs pour obtenir une solution au problème d'apprentissage par renforcement à résoudre. Nous proposons une étude empirique de cette approche en la mettant en oeuvre sur plusieurs problèmes stochastiques de grande taille classiques dans la littérature des FMDPs. Sur l'ensemble des problèmes étudiés, dans le cadre d'un apprentissage hors ligne puis en ligne, nous montrons que notre approche possède les capacités de généralisation et d'agrégation nécessaires à la résolution de ce type de problèmes. De plus, en appliquant nos outils au contrôle d'un personnage non joueur dans le jeu vidéo Counter Strike, nous montrons que les représentations construites par l'apprentissage peuvent être lisibles et manipulables par un opérateur humain.

Soutenance : 26/04/2007

Membres du jury :

GARCIA Frédéric DR INRA [Rapporteur]
MUNOS Rémi DR INRIA [Rapporteur]
DUTECH Alain CR INRIA
LITTMAN Mickael Assistante Professor
PERNY Patrice PROF UPMC
SIGAUD Olivier PROF UPMC

Date de départ : 27/04/2007

Publications 2004-2009

Toutes Articles de revues Conférences

2009
- Th. Degris, O. Sigaud, P.‑H. Wuillemin : “Apprentissage par renforcement factorisé pour le comportement de personnages non joueurs”, Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, vol. 23 (2-3), pp. 221-251, (Lavoisier) (2009)
2006
- Th. Degris, O. Sigaud, P.‑H. Wuillemin : “Chi-square Tests Driven Method for Learning the Structure of Factored MDPs”, Proceedings of the 22^nd conference on Uncertainty in Artificial Intelligence, Massachusetts Institute of Technology, Cambridge, MA, United States, pp. 122-129, (AUAI Press) (2006)
- Th. Degris, O. Sigaud, P.‑H. Wuillemin : “Learning the Structure of Factored Markov Decision Processes in Reinforcement Learning Problems”, Proceedings of the 23^rd International Conference on Machine Learning, Pittsburgh, Pennsylvania, United States, pp. 257-264, (ACM) (2006)
- Th. Degris, O. Sigaud, P.‑H. Wuillemin : “Apprentissage de la structure des processus de décision markoviens factorisés pour l’apprentissage par renforcement”, Actes de la conférence Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la Conduite de Systèmes 2006, Toulouse, France, pp. 89-96 (2006)
2004
- Th. Degris, L. Lachèze, Ch. Boucheny, A. Arleo : “A Spiking Neuron Model of Head-Direction Cells for Robot Orientation”, 8^th International Conference on Simulation of Adaptive Behavior, Los Angeles, CA, United States, pp. 255-263, (MIT Press-Bradford Books) (2004)
- Th. Degris, O. Sigaud, S. Wiener, A. Arleo : “Rapid response of head direction cells to reorienting visual cues: A computational model”, Neurocomputing, vol. 58-60, pp. 675-682, (Elsevier) (2004)