Le domaine de l'accès à l'information est d'une importance vitale dans nos sociétés modernes où la majeure partie de l'information est accessible sous forme digitale. La représentation de données (question d'un utilisateur, texte d'un document) est une clef du succès de l'ensemble des modèles basés sur des techniques d'apprentissage automatique. Le problème de la représentation de données brutes a subi une révolution ces dix dernières années, sous l'impulsion de l'apprentissage profond, en développant une série de modèles et techniques permettant de représenter des données complexes sous la forme d'éléments d'un espace vectoriel, se reposant sur le lien entre distances/angles dans l'espace vectoriel et les relations sémantiques qu'entretiennent les entités représentées. Ce manuscrit présente mes travaux dans le cadre de la représentation de données. En particulier, (1) la représentation de données, en utilisant des formalismes tels que les probabilités quantiques ou les distributions gaussiennes ; (2) l'ancrage du texte dans la réalité (ou tout du moins dans une réalité moins biaisée).