
**Contexte** : Le développement récent de systèmes d’intelligence artificielle généralistes de plus en plus performants pose la question de l’évaluation de leurs capacités, de leur sûreté, et plus généralement de leur comportement. Ces points ont désormais des implications politiques et juridiques (voir par exemple l’EU AI Act). Cependant, ce domaine de recherche reste encore largement pré-paradigmatique, focalisé sur les approches empiriques ; la fiabilité des résultats est donc sujette à caution.
**Objectifs** : Le but de ce groupe de travail est d'étudier, et de porter un regard critique sur, les méthodes et résultats dans le domaine de l'évaluation de ces systèmes d'intelligence artificielle généralistes. L'idée est de combiner approche empirique et point de vue théorique : il s’agit à la fois de se familiariser avec les techniques expérimentales actuellement utilisées dans le domaine, et de s’intéresser à des outils mathématiques et conceptuels permettant d’en étudier les propriétés et les limites. Au vu de l’état actuel de la technologie, nous mettrons l’accent sur les questions liées aux « Large Language Models » et leurs variantes.
**Organisation** : On alternera entre présentations d’articles et de méthodes expérimentales, et discussions sur les fondations théoriques et modèles mathématiques possibles (statistiques, géométriques, ou autres). Il est prévu des séances de deux heures, toutes les deux semaines. Du fait de la diversité des domaines de compétences, et de la nature technique du contenu, il faudra porter une attention particulière à la clarté et à la pédagogie.
**Bibliographie sélective** : * How contaminated is your Benchmark? http://arxiv.org/abs/2502.00678 * Adding Error Bars to Evals http://arxiv.org/abs/2411.00640 Verifying the Union of Manifolds Hypothesis for Image Data http://arxiv.org/abs/2207.02862 * Large Language Models Often Know When They Are Being Evaluated http://arxiv.org/abs/2505.23836 * Running cognitive evaluations on large language models: The do's and the don'ts http://arxiv.org/abs/2312.01276 * Alignment faking in large language models http://arxiv.org/abs/2412.14093 * Frontier Models are Capable of In-context Scheming http://arxiv.org/abs/2412.04984