• Accueil LIP6
  • Page : 'rapport_recherche' inconnue (menus.php)

LIP6 1997/034

  • Rapports de recherche
    Système d'Apprentissage par Auto-Observation. Application au Jeu de Go
  • T. Cazenave
  • 249 pages - 15/12/1997- document en - http://www.lip6.fr/lip6/reports/1997/lip6.1997.034.ps.tar.gz - 1,221 Ko
  • Contact : Tristan.Cazenave (at) nulllip6.fr
  • Ancien Thème : APA
  • Cette thèse décrit un système d'apprentissage par auto-observation, Introspect.
    Ce système créé automatiquement, pour un domaine donné, des connaissances qui permettront d'effectuer des coupes dans les arbres de recherche développés dans ce domaine. Il a été principalement appliqué dans le domaine du jeu de Go, pour l'apprentissage de la démonstration de théorèmes tactiques. Gogol, le programme de Go dont la partie tactique a
    été écrite par Introspect, fait partie du groupe des programmes de Go qui suivent les quatre meilleurs programmes mondiaux. C'est le meilleur programme de Go basé sur un mécanisme d'apprentissage. La combinaison des diverses méthodes décrites dans cette thèse a permis d'écrire en une année un programme de Go qui a sa place dans les compétitions mondiales de programmes de Go alors que les meilleurs programmes de Go ont demandé entre 15 et 20 années de développement.
    Introspect ne possède au départ qu'une définition simple et concise des buts qu'il doit atteindre et un ensemble de règles décrivant les conséquences directes d'une action dans le domaine dans lequel il doit apprendre. A partir des exemples qu'il rencontre, il se spécialise
    automatiquement en un autre programme qui permet de prévoir efficacement à long terme les conséquences de ses actions sur l'achèvement des buts définis.
    Introspect utilise une représentation des connaissances à base de logique des prédicats. Il représente ses connaissances de façon différente suivant qu'il veut apprendre de nouvelles connaissances ou qu'il veut utiliser les connaissances qu'il a apprises.
    Dans la phase d'apprentissage, il utilise une représentation générale qui lui permet d'apprendre des règles générales en utilisant peu d'exemples. Il possède un mécanisme de compilation logique qui lui permet de filtrer les règles apprises rapidement. De plus, afin de pouvoir s'auto-observer, il résout les problèmes avec une représentation qu'il peut manipuler. Il interprète ses règles et mémorise leurs déclenchements. A partir de la trace de résolution de problème, il peut expliquer pourquoi il a été amené à déduire des faits intéressants. Il obtient alors une liste de faits explicative. Cette liste de faits est généralise pour créer de nouvelles règles, en remplaçant les faits contenant des variables instanciées par des prédicats contenant des variables.
    Dans la phase d'utilisation des connaissances apprises, Introspect n'a plus besoin d'avoir une représentation générale mais coûteuse de ses connaissances, il évalue partiellement certaines prémisses des règles apprises pour pouvoir les matcher plus rapidement. Il compile aussi ses règles en programmes C++ pour pouvoir les utiliser plus efficacement.
    Dans le domaine des jeux, une extension de la théorie combinatoire des jeux à des valeurs inconnues est définie qui permet de représenter des connaissances partielles sur des jeux complexes. Les jeux combinatoires ainsi définis représentent des informations sur des morceaux d'arbres de recherche.
    Les programmes créés par Introspect se prètent bien à la parallélisation. La méthode d'apprentissage proposée est générale et peut être appliquée à d'autres domaines que celui du jeu de Go. Des exemples d'applications pour le jeu d'Abalone et pour la prévision en Gestion sont donnés. Dans ces domaines aussi, Introspect remplace la recherche combinatoire par le filtrage d'une base de règles apprises.
  • Mots clés : Apprentissage, Auto-observation, Généralisation, Explication, Compilation, Théorie Combinatoire des Jeux, Jeu de Go, Gestion
  • Directeur de la publication : Valerie.Mangin (at) nulllip6.fr
Mentions légales
Carte du site