LIP6-1999/010

Indexation et interface Homme-Machine. Reconnaissance d'un signal vocal

C. Montacié

LIP6 1999/010: Habilitation à diriger des recherches LIP6 / LIP6 research reports
164 pages - Avril/April 1999 - French document.

PostScript : 387 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : Indexation et interface Homme-Machine. Reconnaissance d'un signal vocal
Titre anglais : Indexing and man-machine multimode interaction. Speech signal recognition

Résumé : Ces travaux se situent dans le domaine du traitement informatique de la parole et des méthodes et architectures logicielles nécessaires pour traiter un tel signal. Cette recherche est fondée sur la coopération de modèles statistiques complexes pour extraire deux informations a priori complémentaires : les caractéristiques du locuteur et le contenu du discours.
La disponibilité récente de bases de tests a fait progresser énormément les recherches en traitement informatique de la parole mais au prix d'une sophistication des méthodes employées. Ces méthodes sont pour l'essentiel basées sur une modélisation statistique, car la taille importante des bases d'apprentissage rend difficile l'utilisation de méthodes orientées 'connaissance'. L'utilisation de connaissances est alors reportée dans le choix d'une modélisation statistique adaptée. Cette adaptation va dépendre de la tâche de reconnaissance de la parole ou du locuteur : conditions de bruit, taille du vocabulaire, nombre de locuteurs. Le savoir-faire d'une équipe en traitement automatique de la parole se matérialise par la constitution d’une série de bibliothèques de modules logiciels de modélisations et de traitement permettant de résoudre en grande partie de nouveaux problèmes et guidant les avancées théoriques nécessaires. Ce paradigme d’évolution nous a permis d’obtenir des technologies vocales applicables à des domaines aussi divers que le contrôle d’accès (Orphée), la dictée vocale (D-DAL), ou l’indexation de données multimédia pour la recherche d'informations dans les vidéos.

Abstract : Theses works are located in the field of the speech processing and the methods and software architectures necessary to process such a signal. This research is based on the cooperation of complex statistical models to extract two a priori additional informations : characteristics of the speaker and contents of the speech.
The recent availability of test databases made research enormously progress but a consequence was a sophistication of the employed methods. These methods are essentially based on a statistical modeling, for the important size of the bases of training makes difficult the use of methods using 'knowledge'. The use of knowledge is then in the choice of an adapted statistical modeling. This adaptation will depend on the task of speech or speaker recognition: noise conditions, vocabulary size, numbers of the speakers. The know-how of a speech processing team consists then often of a set of libraries, of software modules, of modelings and processing making it possible to solve mainly new problems and guiding the necessary theoretical axis. This research paradigm made it possible for us to obtain speech technologies applicable to fields as various as acces control (Orphée), vocal dictation (D-DAL) or multimedia data indexation to the information retrieval in videos.

Mots-clés : Analyse de la parole, reconnaisance du locuteur, reconnaissance de la parole, dictée vocale, systèmes multimédia, indexation audio

Key-words : speech analysis, speaker recognition, speech recognition, vocal dictation, multimedia systems, audio indexing

Publications internes LIP6 1999 / LIP6 research reports 1999

Responsable Éditorial / Editor :Valerie.Mangin@lip6.fr