Les systèmes multi-agents (SMA) se sont démocratisés ces dernières années notamment grâce à l'interfaçage en langage naturel rendu possible par les grands modèles de langage. Même si leur capacité à résoudre des tâches complexes est indéniable, la dynamique qui émerge de ces systèmes peut être difficile à prévoir et des garanties sont nécessaires. Le jailbreak, l'adversarialité ou la recherche de pouvoir sont des modes de défaillances préoccupantes des SMA, et l'évaluation de ces capacités reste un problème difficile. À cet égard, l’interprétabilité pourrait être l’un des meilleurs outils pour surveiller et contrôler plusieurs agents simultanément et automatiquement. En effet, les éléments internes du modèle transmettent les informations utilisées pour sa prédiction et peuvent être utilisés symboliquement pour gagner en compréhension ou en contrôle.