Cette thèse se situe dans le contexte de la Simulation Multi-Agent et s'intéresse à l'évaluation de la capacité des agents à reproduire des comportements humains. Cette problématique se retrouve dans de nombreux domaines comme la Réalité Virtuelle et les Agents Conversationnels Animés. L'approche dominante s'appuie sur l'utilisation de questionnaires de Sciences Humaines et Sociales (SHS). Il existe peu d'approches exploitant l'analyse automatique de données utilisée en Intelligence Artificielle (IA) à l'échelle microscopique. Nous montrons dans cette thèse que l'évaluation gagne à exploiter conjointement ces deux approches.
Nous exposons une méthode d'évaluation de la qualité des comportements des agents qui combine l'approche d'IA et celle de SHS. La première est basée sur la classification de traces de simulation. La seconde évalue les utilisateurs par une annotation des comportements.
Nous présentons ensuite un algorithme de comparaison des agents par rapport aux humains afin d'évaluer les capacités, les manques et les erreurs du modèle d'agent et fournissons des métriques. Puis nous explicitons ces comportements en nous appuyant sur les catégories d'utilisateur. Enfin, nous exposons un cycle de calibration automatique des agents et une exploration de l'espace des paramètres.
Notre méthode d'évaluation est utilisable dans le but d'analyser un modèle d'agent et de comparer plusieurs modèles d'agent. Nous avons appliqué cette méthodologie sur plusieurs études du comportement de conduite en vue d'analyser la simulation de trafic routier ARCHISIM et nous présentons les résultats obtenus.