Séminaire Donnees et APprentissage ArtificielRSS

Traduction et post-édition automatique : une approche statistique par segments


14/12/2007
Intervenant(s) : Cyril GOUTTE, Conseil National de Recherche du Canada
Bien que les approches à base de règle pour la traduction automatique soient toujours (de loin) les plus utilisées en pratique, les techniques statistiques sont aujourd'hui le paradigme dominant, en partie grâce à leur bonne performance dans les campagnes d évaluations internationales. Cette présentation proposera une introduction rapide à la traduction automatique statistique par segments. En particulier, nous décrirons brièvement le modèle log-linéaire, les modèles de traduction et modèles de langue, ainsi que les techniques utilisées pour les estimer et les métriques utilisées pour les évaluer. Le coeur de la présentation décrit l utilisation d un système de traduction automatique statistique par segments pour une tâche de postédition : le système reçoit comme entrée une sortie de traduction automatique brute (provenant par exemple d un système commercial de TA à base de règles) et produit un texte postédité dans la langue cible. Nous décrivons des expériences effectuées sur des données recueillies précisément dans un tel contexte : des couples de sorties de TA brutes et leurs versions postéditées manuellement. Nous montrons que la sortie de notre système de postédition automatique est non seulement de meilleure qualité que la sortie de la TA à base de règles (en termes de scores BLEU et TER), mais également meilleure que la sortie d un système de pointe de traduction automatique par segments, employé en mode traduction seule. Nous montrons aussi que la postédition automatique constitue une façon pratique d adapter les sorties d un système générique de TA à un nouveau domaine, et replace efficacement le processus coûteux de constitution de ressources spécifiques au domaine telles que les lexiques ou règles dédiés.
Plus d'informations ici
Javier.Diaz (at) nulllip6.fr
 Mentions légales
Carte du site |