Séminaire Donnees et APprentissage Artificiel

Sélection de caractéristiques pour les champs aléatoires conditionnels par pénalisation L1 : application au traitement des langues

Jeudi 28 octobre 2010
Nataliya Sokolovska (LRI -Université Paris Sud)

Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (conditional random fields -- CRF). Sélectionner automatiquement les caractéristiques pertinentes s'avère alors intéressant et donne lieu à des modèles plus compacts et plus faciles à utiliser.

Je présente un algorithme (N. Sokolovska et al., 2010) d'estimation pour les CRF qui réalise une telle sélection, par le truchement d'une pénalisation L_1. Je présente également les résultats d'expériences menées sur des tâches de traitement des langues (le chunking et la détection des entités nommées), en analysant les performances en généralisation et les caractéristiques sélectionnées.

Plus d'informations ici …
Sahar.Changuel (at) nulllip6.fr