L'apprentissage statistique définit des concepts et des algorithmes permettant d'apprendre à partir des données, dans le but de faire des prédictions. Pour obtenir de bonnes performances en prédiction, le choix de la représentation des données est crucial, et a motivé le développement de méthodes permettant de modifier la représentation initiale des données. L'accès à l'information regroupe de nombreux domaines d'application pour l'apprentissage statistique, et en général, le choix de la représentation de l'information est un problème difficile.
Dans cette thèse, nous étudions la problématique du choix de la représentation des données au travers de l'extraction de caractéristiques. Nous proposons d'abord un cadre formel pour l'extraction de caractéristiques, qui nous permet de distinguer trois principaux cadres d'extraction. Puis dans le cadre de l'extraction non supervisée, nous proposons deux modèles pour le cas particulier des données textuelles. Nous validons nos modèles sur deux tâches en recherche d'information : le clustering de documents et le résumé automatique de texte.
Nous proposons également un cadre de travail unifié pour étudier le problème nouveau de l'extraction de caractéristiques multi-tâches. Ce cadre nous permet de proposer des algorithmes d'apprentissage pour la régression multi-tâches et pour l'ordonnancement d'instances multi-tâches. Nous appliquons nos deux modèles au filtrage collaboratif, d'abord vu comme un problème de prédiction de notes, puis comme un problème de prédiction d'ordre. Cette deuxième formulation est nouvelle et ouvre la voie à de nouveaux types de systèmes de recommandation.