LIP6 CNRS Sorbonne Université Tremplin Carnot Interfaces
Direct Link LIP6 » News » PhD students

MADEIRA Charles

PhD graduated
Team : ACASA
Departure date : 08/31/2008
Supervision : Jean-Gabriel GANASCIA
Co-supervision : CORRUBLE Vincent

Agents adaptatifs dans les jeux de stratégie modernes : une approche fondée sur l'apprentissage par renforcement

L'un des principaux intérêts de l'intelligence artificielle pour le domaine des jeux consiste en la conception d'adversaires artificiels proposant un réel défi aux joueurs humains. Dans ce contexte, certaines techniques telles que celles proposées par l'apprentissage automatique ont déjà obtenu d'excellents résultats ces dernières années lorsqu'elles ont été appliquées aux jeux dits "classiques". Cependant, devant des simulations du monde réel telles que les "jeux de stratégie modernes", qui peuvent être vues comme des extensions des jeux classiques, les techniques les plus actuelles de l'intelligence artificielle ne peuvent pas être efficacement appliquées en raison d'une très grande complexité. Ces jeux modernes demandent aux joueurs de contrôler la prise de décisions d'un grand nombre d'unités placées sur un environnement très sophistiqué. Cela les conduit à traiter des problèmes de prise de décisions pour lesquels plusieurs questions sont simultanément posées (la prise de décisions dans l'incertain, la gestion de ressources, le raisonnement spatial et temporel, la modélisation de l'adversaire, la coordination entre les unités, etc.), dont chacune peut représenter un problème de recherche difficile en soi.
Cette thèse étudie les défis posés par l'application de l'apprentissage par renforcement aux jeux de stratégie modernes et propose l'approche STRADA. L'approche STRADA combine de nouvelles idées avec des techniques actuelles de plusieurs domaines de l'apprentissage automatique. Elle propose une nouvelle approche intégrée d'apprentissage pour la conception automatique de stratégies comportementales efficaces dans ce type d'environnement. Elle explore, en particulier, (1) la réduction de la complexité du problème grâce à la décomposition de la prise de décisions et à l'abstraction des espaces d'états et d'actions ; et (2) l'accélération du processus d'apprentissage des agents grâce à la généralisation de la fonction d'évaluation et à l'amorçage du processus d'acquisition de l'expérience. Des solutions pour ces problèmes sont intégrées dans un système d'apprentissage efficace, dont les performances sont démontrées sur la tâche d'apprendre des stratégies comportementales dans le cadre d'un wargame commercial. Le système résultant surpasse le niveau de performances du système de prise de décisions commercial et atteint un niveau proche de celui de l'auteur de cette thèse.
Defence : 04/25/2007 - 10h30 - Site Passy-Kennedy - salle 549
Jury members :
BOUZY Bruno Université René Descartes [Rapporteur]
CORRUBLE Vincent Université Pierre et Marie Curie [Encadrant]
DONNART Jea-Yves Thales [Examinateur]
GANASCIA Jean-Gabriel [Directeur]
LITTMAN Michael Rutgers University [Rapporteur]
RAMALHO Gerber Universidade federal de Pernambuco [Examinateur]
SIGAUD Olivier Université Pierre et Marie Curie [Examinateur]

2002-2011 Publications

 Mentions légales
Site map |