Les récentes avancées technologiques ont engendré une révolution dans le monde de la défense aérienne. Nous entendons par défense aérienne l’ensemble des mesures et des systèmes conçus pour détecter, identifier, poursuivre et neutraliser des menaces aériennes. Avec l’apparition de nouvelles menaces, comme les drones de petite ou moyenne taille ou des menaces hypervéloces ou hypermanœuvrantes, le champ de bataille devient de plus en plus complexe à analyser pour les opérateurs. Les méthodes actuelles, combinant des décisions prises par les opérateurs humains et des algorithmes à base de règles ou des euristiques, souffrent d’un manque de réactivité et de robustesse face à ces nouvelles menaces.
Dans cette thèse, nous explorons le potentiel de l’apprentissage par renforcement profond afin d’élaborer des stratégies défensives adaptées en temps réel. Les contributions de cette thèse s’articulent autour de trois axes. Tout d’abord, nous avons mis en place des algorithmes d’apprentissage par renforcement profond qui surpassent les méthodes à base de règles en s’adaptant aux situations qu’ils rencontrent, là où les stratégies déterministes restent limitées face à la complexité et à la variabilité de l’environnement.
Ensuite, nous démontrons que ces agents sont capables de transférer les connaissances apprises d’un scénario source vers un scénario cible avec robustesse.
Enfin, en mettant à profit le mécanisme d’autoattention, nous nous intéressons à l’explicabilité des décisions obtenues par Apprentissage par Renforcement Profond, étape essentielle pour favoriser l’acceptabilité de ce type d’approche et pour leur adoption dans un contexte opérationnel.