LIP6 CNRS Sorbonne Université Tremplin Carnot Interfaces
Direct Link LIP6 » 新闻 » 在读博士

HOËT Shirley

毕业博士
科研组 : SMA
离开日期 : 2013-2-13
责任导师 : Nicolas SABOURET

Apprentissage de la communication dans un système multi-agents ouvert, asynchrone et faiblement couplé

Dans un système multi-agents, la communication directe permet aux agents, via l'envoi de messages structurés, d'échanger des informations, de déléguer des tâches ou de négocier. Dans les travaux actuels, il est généralement supposé que l'agent connaît la nature (contenu et destinataire) des messages qu'il doit envoyer ainsi que le moment où les envoyer. Mais si l'on se place dans les systèmes multi-agents ouverts (où les agents peuvent entrer et sortir) et faiblement couplés (les agents sont conçus de manière séparée et ne peuvent donc pas connaître a priori les capacités de leurs pairs), cette hypothèse n'est plus valide : les agents ne se « connaissant » pas, ils ne peuvent déterminer à l'avance quels messages s'envoyer. L’objectif de cette thèse est par conséquent de définir des mécanismes pour permettre aux agents d'apprendre à communiquer avec les autres agents, en fonction de leurs objectifs et des changements perçus dans le système.
Dans un premier temps, nous présentons un algorithme d'exploration couplé à un protocole multi-agent permettant à un agent de construire le contenu de ses messages et d'associer ces derniers aux états dans lesquels il peut les envoyer. Ce mécanisme repose sur le caractère introspectif de nos agents qui ont la capacité de raisonner sur leurs états et leurs actions.
Dans un deuxième temps, nous présentons un mécanisme d'apprentissage par renforcement permettant à un agent de déterminer quand il doit ou non communiquer et dans ce cas quel message il doit envoyer. Notre algorithme repose sur l'utilisation d'une mémoire permettant à l'agent de mémoriser ses croyances et ses actes de communication envoyés dans le passé ainsi que sur la définition d'une nouvelle action {wait} qui permet à l'agent d'attendre quand il ne doit pas communiquer.
Dans un troisième temps, nous présentons un nouveau modèle de mémoire pour l'apprentissage de la communication. En effet, suite à l'évaluation de notre algorithme d'apprentissage, nous avons mis en évidence des problèmes que nous imputons à l'utilisation d'une mémoire qui n'est pas spécifique à la communication et qui de ce fait nuit à notre mécanisme d'apprentissage en créant un ensemble d'états, sur lequel l'algorithme agit, trop important. Notre modèle de mémoire est basé sur une mémorisation des dates et des réponses des messages qui ont été exécutés avec succès. Cela permet de limiter la taille de l'espace d'état sur certains problèmes et de mieux faire converger l'algorithme d'apprentissage.
Enfin, nous proposons un mécanisme permettant d'extraire le modèle des actes de communication, c'est-à-dire les préconditions que doit vérifier la situation de l'agent pour que celui-ci choisisse d'envoyer un message et les effets attendus de ce message sur le système. Notre proposition repose sur la politique apprise par l'agent en utilisant notre algorithme d'apprentissage. À partir de cette politique, nous montrons comment il est possible d'une part d'apprendre les effets des messages en utilisant les capacités d'introspection de nos agents. Puis à partir de l'apprentissage de ces effets, nous proposons d'utiliser un outil de classification pour déterminer des préconditions généralisées.
En conclusion, ce travail de thèse a mis en avant la nécessité pour les agents d'apprendre à communiquer et a proposé mécanisme basé sur l'apprentissage par renforcement et l'utilisation d'une mémoire pour la construction d'un modèle de messages.
答辩 : 2012-12-17 - 13h30 - Site Jussieu 25-26/105
评委会 :
M. Abdel-Illah Mouaddib, Professeur à l'Université de Caen [Rapporteur]
M. Alain Dutech , Chargé de recherche INRIA [Rapporteur]
M. Vincent Chevrier, Maitre de conférence Université de Nancy
M. Patrick Reignier, Professeur à l'Université Grenoble
M. Olivier Sigaud, Professeur à l'Université Pierre et Marie Curie
M. Nicolas Sabouret, Professeur à l'Université Paris-sud

2009-2013 刊物

 Mentions légales
网站导航 |