LIP6 1999/011
-
Habilitation à Diriger des Recherches «La reconnaissance vocale et son mentor : l'évaluation»
- M.-J. Caraty
- 67 pages - 07/04/1999 - document en - http://www.lip6.fr/lip6/reports/1999/lip6.1999.011.ps.gz 308 Ko
- Contact Marie-Jose.Caraty (at) nulllip6.fr
- Ancien Thème : APA
Les travaux présentés dans ce mémoire couvrent dix années de recherche post-doctorale, dans le traitement informatique de la parole, au LAFORIA (Laboratoire Formes et Intelligence Artificielle), devenu le Pôle IA (Intelligence Artificielle) du LIP6, le laboratoire d'Informatique de Paris 6.
Le titre du mémoire présente l'évaluation comme un guide sage et expérimenté pour la recherche en reconnaissance vocale. L'évaluation revient très naturellement au cours de la présentation des travaux dans ce mémoire. Parmi les différents modes d'évaluation identifiés (adéquation, diagnostic, quantitatif et qualitatif), un paradigme d'évaluation dérivé du 'quantitatif' s'est imposé en reconnaissance vocale. Le principe de ce paradigme peut se résumer par 'tâche commune, données communes, évaluation commune' ; c'est par des campagnes d'évaluation qu'il a permis d'accélérer le développement de la recherche et de la technologie vocale.
Les systèmes fondés sur la modélisation markovienne se sont peu à peu imposés comme les systèmes de l'état de l'art en reconnaissance vocale grand vocabulaire, indépendamment du locuteur. Pour un tel problème, la maîtrise de la technologie markovienne n'est pas simple. C'est à travers le développement de notre propre système de dictée vocale, des options choisies, et de notre expérience d'une campagne d'évaluation de tels systèmes, que sont décrits les travaux. D'autres études, relevant du 'qualitatif', sont présentées dans le cadre de systèmes hybrides fondés sur la modélisation markovienne. Le premier système se caractérise par son contrôle temporel dans les modèles de Markov cachés. Le second système utilise la règle de décision des K-plus proches voisins comme alternative à l'estimation gaussienne des probabilités d'émission.
C'est après ce que l'on peut considérer comme le 'must' de la reconnaissance vocale que les travaux les plus anciens et les plus récents sont présentés ; ils concernent l'espace de représentation et de décision du signal de parole. Les premiers travaux concernent la paramétrisation de la parole en formants et la conception d'une mesure de dissimilarité interspectrale à critères perceptifs, adaptée à cet espace de représentation, ainsi que les évaluations quantitatives et qualitatives dont ils ont fait l'objet. Une deuxième série de travaux, concernant le numérique-symbolique, présente l'intérêt d'avoir expérimenté l'apprentissage symbolique en reconnaissance de la parole. Des travaux sur la reconnaissance du locuteur s'intéresse à un problème dual de la reconnaissance de la parole. Enfin, les travaux les plus récents proposent, pour traiter la non-stationnarité du signal de parole, une extension d'un espace de représentation quelconque par une multi-résolution temporelle ; la multi-résolution, munie de la mesure d'inertie et du calcul de
centroïde, trouve de nombreuses applications en reconnaissance vocale.
En conclusion du mémoire, notre maîtrise des technologies vocales est illustrée dans un champs plus large que la reconnaissance vocale : celui de l'indexation de documents multimédia. Enfin, l'une des perspectives pose le problème de l'évolution des systèmes de dictée vocale et rejoint le Génie Logiciel par la nécessité de développer des composants logiciels réutilisables.
- Mots clés : reconnaissance de la parole/locuteur, modèles de Markov cachés, dictée vocale, espace de représentation, processus de décision, mesures de dissimilarité, critère de perception, numérique-symbolique, multi-résolution temporelle, indexation multimédia, évaluation
- Directeur de la publication : Valerie.Mangin (at) nulllip6.fr