LIP6 CNRS Sorbonne Université Tremplin Carnot Interfaces
Direct Link LIP6 » Новости » Аспиранты

PAMPONET MACHADO Aydano

Кандидат наук
Подразделение : SMA
Окончание контракта : 31.12.2009
Научны(е)й руководител(и)ь : Jean-Daniel ZUCKER

Le transfert adaptatif en apprentissage par renforcement Application à la simulation de schéma de jeux tactiques

L'un des principaux objectifs de l'apprentissage par renforcement est de développer des algorithmes capables de générer des politiques de bonne qualité en un temps le plus réduit possible. Les progrès dans ce domaine sont tels que les performances de certains algorithmes récents approchent des limites théoriques. Malheureusement, la plupart des taches d'apprentissage issues du monde réel sont de grande dimension, et l’apprentissage prend dès lors un temps considérable. Pour accélérer l'apprentissage, l'une des voies possibles consiste à guider le processus d'exploration à l'aide de connaissances du domaine. Lorsque ces connaissances prennent la forme d'une politique apprise précédemment sur une tâche reliée à la tache courante, on parle de transfert de politique. La plupart des algorithmes de transfert de politique existants sont basés sur une hypothèse implicite : ils supposent que la politique disponible est d'une bonne qualité sur la tache courante. Clairement, lorsque cette hypothèse n'est pas respectée, les performances de ces algorithmes se dégradent bien en dessous des performances des méthodes d'apprentissage par renforcement standards. Le but de cette thèse est de lever cette hypothèse, en proposant des algorithmes de transfert de politique capables de s'adapter à la qualité de la politique disponible. Plus précisément, nous introduisons un paramètre nommé le taux de transfert, qui contrôle à quel point l'algorithme se fiera à la politique disponible. De plus, nous proposons d'optimiser ce taux afin de faire le meilleur usage de cette politique. Ainsi, les algorithmes que nous proposons dans cette thèse offrent une certaine robustesse face à la politique disponible, ce qui n'était pas le cas des approches précédentes. Ces algorithmes sont évalués sur deux domaines différents : un problème jouet (le gridworld), et une application d'aide à l'entraineur de football. Cette dernière application propose à un entraineur de saisir des schémas tactiques à l'aide d'une interface graphique, et lui permet ensuite de visualiser des agents-joueurs en train de réaliser ces mêmes schémas. Pour satisfaire dans des délais raisonnables la requête de l'entraineur, l'apprentissage par renforcement seul ne suffit pas, et nos algorithmes de transfert ont été appliqués sur ce domaine avec succès.
Защита диссертаций : 24.06.2009 - 14h00 - Site Passy-Kennedy - salle 847
Члены жюри :
CHEVALEYRE Yann Maître de Conférences à l’Université Paris-Dauphine (Encadrant)
EL FALLAH SEGHROUCHNI Amal Professeur à l’Université Pierre et Marie Curie (Examinateur)
GARCIA Frédérick Directeur de Recherches à l’Institut National de la Recherche Agronomique (Rapporteur)
PREUX Philippe Professeur à l’Université de Lille 3 (Rapporteur)
RAMALHO Geber Professeur à l’Universidade Federal de Pernambuco (Examinateur)
RIOULT François Maître de Conférences à l’Université de Caen Basse-Normandie (Invité)
RIPOLL Hubert Professeur à l’Université de la Méditerranée (Invité)
ZUCKER Jean-Daniel Directeur de Recherches
à l’Institut de Recherche pour le Développement (Directeur)

Публикации 2002-2009

 Mentions légales
Карта сайта |