Les données séquentielles correspondent à des séries d’événements ordonnés. Dans le domaine de la mobilité humaine, ces données peuvent être modélisées sous forme de trajectoires de points d’intérêt (POIs). Les trajectoires représentent des séquences de lieux spécifiques visités par les utilisateurs dans l’ordre chronologique. Les contenus générés par les utilisateurs sur le Web constituent une source précieuse pour l’analyse de ces comportements humains. Grâce aux données issues de photos partagées, de tags ou d’autres interactions numériques, il est possible de reconstituer les trajectoires de mobilité des individus.
Dans ce contexte, notre travail s’articule autour de trois tâches principales : la recommandation de POIs et de trajectoires, la recherche de similarité entre séquences, et le classement des top-k séquences les plus similaires à une séquence requête. Nos contributions sont doubles : d’une part, fournir une synthèse des concepts fondamentaux et des approches existantes dans ces domaines ; d’autre part, proposer de nouvelles solutions pour pallier les limitations identifiées dans l’état de l’art. Nous débutons par étudier les tâches de recommandation, en particulier celles visant à prédire le prochain POI à visiter.
De nombreuses méthodes existantes peinent à capturer les relations sémantiques entre POIs, ou intègrent des informations spatio-temporelles peu pertinentes pour nos données uniquement séquentielles. Afin de surmonter ces obstacles, nous proposons une approche fondée sur des représentations vectorielles (embeddings) générées par des modèles de langue. Cette méthode exploite les dépendances contextuelles entre POIs tout en se basant exclusivement sur les données séquentielles, améliorant ainsi la qualité des recommandations. Dans un second temps, nous élargissons notre étude à la recherche de similarité entre séquences, avec pour objectif de quantifier la ressemblance entre deux séquences sur la base de leurs éléments communs.
Cette problématique dépasse le cadre des trajectoires de mobilité, et s’applique à d’autres types de séquences. Face aux limites des méthodes existantes, souvent coûteuses en calcul ou inadaptées à la structure de nos données, nous proposons SISIS, une approche d’indexation de séquences efficace permettant de retrouver toutes les séquences similaires à une séquence requête, selon un seuil défini par l’utilisateur (en nombre d’éléments partagés dans le même ordre). Nous présentons également SISIS*, une extension intégrant des embeddings pour enrichir les informations contextuelles et améliorer les performances de recherche.
Enfin, nous abordons la tâche du classement des séquences similaires en introduisant une nouvelle fonction de score et un algorithme efficace de recherche des top-k séquences. Notre fonction attribue un score plus élevé aux séquences partageant un plus grand nombre de sous-séquences avec la requête, tout en optimisant les performances de calcul grâce à une gestion efficace des ensembles de séquences.