Les systèmes de détection d'intrusions (IDS) sont des composants critiques pour sécuriser les réseaux de communication modernes, en particulier à mesure que les menaces cybernétiques deviennent plus complexes. Cependant, les méthodologies d'évaluation existantes pour les IDS basés sur l'apprentissage automatique manquent de standardisation, négligent souvent les bonnes pratiques et se concentrant principalement sur les performances dans des jeux de données spécifiques sans prendre en compte des problèmes plus larges. Cette thèse s'attaque à ces limitations en définissant d'abord un cadre théorique complet pour évaluer les IDS basés sur le ML. S'appuyant sur cette théorisation, nous introduisons FREIDA, un outil qui implémente le cadre théorique, en mettant l'accent sur la complétude, la fiabilité et la reproductibilité. FREIDA intègre à la fois les méthodes d'évaluation traditionnelles des IDS et les bonnes pratiques en apprentissage automatique, en se concentrant particulièrement sur la relation critique entre la sélection des données et les choix d'évaluation. Notre approche étend également le processus d'évaluation pour inclure l'évaluation de la robustesse face aux attaques adverses et de la confidentialité, offrant une évaluation plus holistique de la résilience des IDS. Grâce à la formalisation et à la mise en œuvre de notre cadre d'évaluation, nous visons à standardiser les méthodes d'évaluation des IDS et à favoriser le développement de systèmes de détection d'intrusions résilients et adaptatifs pour les réseaux de nouvelle génération.