HORINCAR Roxana
Direction de recherche : Bernd AMANN
Co-encadrement : ARTIÈRES Thierry
Stratégies de Rafraîchissement et Estimation en Ligne de Changements pour le Contenu Web Dynamique
Avec l'expansion importante d'appareils connectés à l'Internet et l'essor du Web 2.0, le contenu web se diversifie et devient de plus en plus dynamique. Afin de faciliter la diffusion de flux d'informations évolutives et souvent temporaires (news, messages, annonces), des nombreuses applications web publient les items d'informations les plus récentes dans des documents RSS ou Atom qui sont ensuite collectés et transformés par des agrégateurs RSS comme Google Reader ou Yahoo! News. Nos recherches se placent dans le contexte d'agrégation de documents RSS dynamiques et se focalisent sur l'optimisation du rafraîchissement et de l'estimation en ligne du changement de contenu RSS hautement dynamique. Nous introduisons et formalisons deux mesures qualitatives spécifiques à l'agrégation de flux RSS qui reflètent la complétude et la fraîcheur moyenne du flux d'information agrégé. Nous proposons une stratégie de rafraîchissement du "meilleur effort" qui maximise la qualité de l'agrégation par rapport aux autres approches existantes avec un nombre moyen de rafraîchissements identique. Nous présentons une analyse des caractéristiques générales de l'activité de publication des flux RSS réels en se focalisant surtout sur la dimension temporelle. Nous étudions différents modèles et méthodes d'estimation de changements d'activité et leur intégration dans les stratégies de rafraîchissement. Les méthodes présentées ont été implémentés et testés sur des données synthétiques et des flux RSS réels.
Soutenance : 20/09/2012
Membres du jury :
M. LAMARRE Philippe (INSA Lyon) [Rapporteur]
M. GROSS-AMBLARD David (Université de Rennes 1) [Rapporteur]
Mme. BERTI-EQUILLE Laure (IRD, Aix-Marseille Université)
M. CORD Matthieu (UPMC Paris 6)
M. AMANN Bernd (UPMC Paris 6)
M. ARTIERES Thierry (UPMC Paris 6)