Annuaire

JARRAD Sara

Post-doctorante à Sorbonne Université (ATER, Sorbonne Université)
Équipe : BD

Sorbonne Université - LIP6

01 44 27 87 56
Sara.Jarrad (at) nulllip6.fr
https://lip6.fr/Sara.Jarrad

Direction de recherche : Stéphane GANÇARSKI
Co-encadrement : NAACKE Hubert

Recherche, classification et recommandation de séquences similaires : Application aux trajectoires de mobilité

Les données séquentielles correspondent à des séries d’événements ordonnés. Dans le domaine de la mobilité humaine, ces données peuvent être modélisées sous forme de trajectoires de points d’intérêt (POIs). Les trajectoires représentent des séquences de lieux spécifiques visités par les utilisateurs dans l’ordre chronologique. Les contenus générés par les utilisateurs sur le Web constituent une source précieuse pour l’analyse de ces comportements humains. Grâce aux données issues de photos partagées, de tags ou d’autres interactions numériques, il est possible de reconstituer les trajectoires de mobilité des individus.

Dans ce contexte, notre travail s’articule autour de trois tâches principales : la recommandation de POIs et de trajectoires, la recherche de similarité entre séquences, et le classement des top-k séquences les plus similaires à une séquence requête. Nos contributions sont doubles : d’une part, fournir une synthèse des concepts fondamentaux et des approches existantes dans ces domaines ; d’autre part, proposer de nouvelles solutions pour pallier les limitations identifiées dans l’état de l’art. Nous débutons par étudier les tâches de recommandation, en particulier celles visant à prédire le prochain POI à visiter.

De nombreuses méthodes existantes peinent à capturer les relations sémantiques entre POIs, ou intègrent des informations spatio-temporelles peu pertinentes pour nos données uniquement séquentielles. Afin de surmonter ces obstacles, nous proposons une approche fondée sur des représentations vectorielles (embeddings) générées par des modèles de langue. Cette méthode exploite les dépendances contextuelles entre POIs tout en se basant exclusivement sur les données séquentielles, améliorant ainsi la qualité des recommandations. Dans un second temps, nous élargissons notre étude à la recherche de similarité entre séquences, avec pour objectif de quantifier la ressemblance entre deux séquences sur la base de leurs éléments communs.

Cette problématique dépasse le cadre des trajectoires de mobilité, et s’applique à d’autres types de séquences. Face aux limites des méthodes existantes, souvent coûteuses en calcul ou inadaptées à la structure de nos données, nous proposons SISIS, une approche d’indexation de séquences efficace permettant de retrouver toutes les séquences similaires à une séquence requête, selon un seuil défini par l’utilisateur (en nombre d’éléments partagés dans le même ordre). Nous présentons également SISIS*, une extension intégrant des embeddings pour enrichir les informations contextuelles et améliorer les performances de recherche.

Enfin, nous abordons la tâche du classement des séquences similaires en introduisant une nouvelle fonction de score et un algorithme efficace de recherche des top-k séquences. Notre fonction attribue un score plus élevé aux séquences partageant un plus grand nombre de sous-séquences avec la requête, tout en optimisant les performances de calcul grâce à une gestion efficace des ensembles de séquences.

Soutenance : 08/07/2025

Membres du jury :

Maude Manouvrier MCF-HDR, Université Paris-Dauphine-PSL [Rapporteur]
Reza Akbarinia CR-HDR, Inria [Rapporteur]
Benjamin Piwowarski DR, Sorbonne Université
Olivier Curé PR, Université Gustave Eiffel
Stéphane Gançarski MCF-HDR, Sorbonne Université
Hubert Naacke PR, Sorbonne Université

Publications 2022-2025

Toutes Chapitres de livres Communications Thèse

2025
- S. Jarrad : “Search, classification and recommendation of similar sequences : Application to mobility trajectories”, thèse, soutenance 08/07/2025, direction de recherche Gançarski, Stéphane, co-encadrement : Naacke, Hubert (2025)
- S. Jarrad, H. Naacke, S. Gançarski : “SISIS: Sequence Indexing for SImilarity Search”, chapter in Transactions on Large-Scale Data- and Knowledge-Centered Systems LIX: Special Issue on Data Management - Principles, Technologies, and Applications, vol. 16240, Lecture Notes in Computer Science, pp. 32-60, (Springer Berlin Heidelberg), (ISBN: 978-3-662-72449-1) (2025)
2024
- S. Jarrad, H. Naacke, S. Gançarski : “Top-k on Sequences: A New Approach to Enhanced Similarity Search”, International Conference on Information Integration and Web Intelligence (iiWAS), Bratislava, Slovakia (2024)
2023
- S. Jarrad, H. Naacke, S. Gançarski, M. Gueye : “Embedding-Enhanced Similarity Metrics for Next POI Recommendation”, Proceedings of the 12^th International Conference on Data Science, Technology and Applications DATA, vol. 1, Rome, Italy, pp. 247-254, (SciTePress - Science and Technology Publications), (ISBN: 978-989-758-664-4) (2023)
2022
- S. Jarrad : “Recommandation de trajectoires basée sur word2vec”, Journées Bases de Données Avancées (BDA), Clermont Ferrand, France (2022)