- Laboratoire d’informatique

JARRAD Sara

Doctorante à Sorbonne Université (ATER, Sorbonne Université)
Équipe : BD
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 25-26, Étage 5, Bureau 518
    4 place Jussieu
    75252 PARIS CEDEX 05

01 44 27 87 56
Sara.Jarrad (at) nulllip6.fr
https://lip6.fr/Sara.Jarrad

Direction de recherche : Stéphane GANÇARSKI
Co-encadrement : NAACKE Hubert

Recherche, classification et recommandation de séquences similaires : Application aux trajectoires de mobilité

Les données séquentielles correspondent à des séries d’événements ordonnés. Dans le domaine de la mobilité humaine, ces données peuvent être modélisées sous forme de trajectoires de points d’intérêt (POIs). Les trajectoires représentent des séquences de lieux spécifiques visités par les utilisateurs dans l’ordre chronologique. Les contenus générés par les utilisateurs sur le Web constituent une source précieuse pour l’analyse de ces comportements humains. Grâce aux données issues de photos partagées, de tags ou d’autres interactions numériques, il est possible de reconstituer les trajectoires de mobilité des individus.

Dans ce contexte, notre travail s’articule autour de trois tâches principales : la recommandation de POIs et de trajectoires, la recherche de similarité entre séquences, et le classement des top-k séquences les plus similaires à une séquence requête. Nos contributions sont doubles : d’une part, fournir une synthèse des concepts fondamentaux et des approches existantes dans ces domaines ; d’autre part, proposer de nouvelles solutions pour pallier les limitations identifiées dans l’état de l’art. Nous débutons par étudier les tâches de recommandation, en particulier celles visant à prédire le prochain POI à visiter.

De nombreuses méthodes existantes peinent à capturer les relations sémantiques entre POIs, ou intègrent des informations spatio-temporelles peu pertinentes pour nos données uniquement séquentielles. Afin de surmonter ces obstacles, nous proposons une approche fondée sur des représentations vectorielles (embeddings) générées par des modèles de langue. Cette méthode exploite les dépendances contextuelles entre POIs tout en se basant exclusivement sur les données séquentielles, améliorant ainsi la qualité des recommandations. Dans un second temps, nous élargissons notre étude à la recherche de similarité entre séquences, avec pour objectif de quantifier la ressemblance entre deux séquences sur la base de leurs éléments communs.

Cette problématique dépasse le cadre des trajectoires de mobilité, et s’applique à d’autres types de séquences. Face aux limites des méthodes existantes, souvent coûteuses en calcul ou inadaptées à la structure de nos données, nous proposons SISIS, une approche d’indexation de séquences efficace permettant de retrouver toutes les séquences similaires à une séquence requête, selon un seuil défini par l’utilisateur (en nombre d’éléments partagés dans le même ordre). Nous présentons également SISIS*, une extension intégrant des embeddings pour enrichir les informations contextuelles et améliorer les performances de recherche.

Enfin, nous abordons la tâche du classement des séquences similaires en introduisant une nouvelle fonction de score et un algorithme efficace de recherche des top-k séquences. Notre fonction attribue un score plus élevé aux séquences partageant un plus grand nombre de sous-séquences avec la requête, tout en optimisant les performances de calcul grâce à une gestion efficace des ensembles de séquences.


Soutenance : 08/07/2025

Membres du jury :

Maude Manouvrier MCF-HDR, Université Paris-Dauphine-PSL [Rapporteur]
Reza Akbarinia CR-HDR, Inria [Rapporteur]
Benjamin Piwowarski DR, Sorbonne Université
Olivier Curé PR, Université Gustave Eiffel
Stéphane Gançarski MCF-HDR, Sorbonne Université
Hubert Naacke PR, Sorbonne Université

Publications 2022-2025