SANOJA Andres

Docteur
Équipe : BD
Date de départ : 31/01/2015
https://lip6.fr/Andres.Sanoja

Direction de recherche : Stéphane GANÇARSKI

Segmentation des Pages Web, Évaluation et Applications

Les pages web sont devenues plus complexes que jamais, principalement parce qu’elles ne sont pas conçues manuellement mais générées par des systèmes de gestion de contenu (CMS en anglais).
De ce fait, il devient difficile de les analyser, c'est-à-dire d’identifier et classifier automatiquement les différents éléments qui les composent. La segmentation de pages web est une des solutions à ce problème. Elle consiste à décomposer une page web en segments, visuellement et sémantiquement cohérents, appelés blocs.
La qualité d’une segmentation est mesurée par sa correction (ou précision) et sa généricité, c'est-à-dire sa capacité à traiter des pages web de différents types. Notre recherche se concentre sur l’amélioration des techniques existantes de segmentation et sur une mesure fiable et équitable de la qualité des segmenteurs, afin de pouvoir comparer ces derniers.
Nous proposons un modèle conceptuel de notre approche pour la segmentation ainsi que Block-o-Matic (BoM), notre segmenteur de pages web qui tient compte de la précision et de la généricité. Nous proposons également un modèle d’évaluation qui prend en compte le contenu ainsi que la géométrie des blocs pour mesurer la correction d’un algorithme de segmentation, par rapport à une vérité de terrain conçue par un humain. Ce modèle est générique, il permet de tester n’importe lequel des algorithmes de segmentation et d’observer ses performances sur différents types de page. Nous l’avons testé sur quatre segmenteurs (dont BOM) et quatre types de pages (blog, enterprise, forum, picture et wiki). Les résultats montrent que BOM surpasse ses concurrents en général. Ils montrent aussi que la performance relative d’un segmenteur dépend du type de page segmentée.
Enfin, nous présentons deux applications développées au dessus de BOM. Pagelyzer utilise BOM pour comparer deux versions de pages web et décider si elles sont similaires ou pas. C’est la principale contribution de notre équipe au projet européen Scape (FP7-IP). Nous avons aussi développé un outil de migration de pages HTML4 vers le nouveau format HTML5.

Soutenance : 22/01/2015

Membres du jury :

MURISASCO Elisabeth (Professeure, Université de Toulon) [Rapporteur]
RUKOZ Marta (Professeure, Université de Paris Ouest Nanterre) [Rapporteur]
BOUGAMIN Luc (Directeur de Recherches, Inria Rocquencourt)
SENELLART Pierre (Professeur, Télécom ParisTech)
CORD Matthieu (Professeur, UPMC)
GANÇARSKI Stéphane (Maître de Conférences HDR, UPMC)

Date de départ : 31/01/2015

Publications 2012-2016

Mentions légales
Carte du site