Bonjour,
Vous êtes cordialement invité à ma soutenance de thèse intitulée :
« Stratégies de Rafraîchissement et Estimation en Ligne de Changements
pour le Contenu Web Dynamique »
La soutenance aura lieu le Jeudi 20 Septembre 2012 à 15h30, en salle
25-26/101 (1er étage), au Laboratoire d'Informatique de Paris 6 (LIP6), 4
Place Jussieu, 75005 Paris.
Un pot suivra dans la même salle, auquel vous êtes aussi conviés.
----------------------------------------------------------------------
Résumé de la thèse :
Avec l'expansion importante d'appareils connectés à l'Internet et l'essor
du Web 2.0, le contenu web se diversifie et devient de plus en plus
dynamique. Afin de faciliter la diffusion de flux d'informations
évolutives et souvent temporaires (news, messages, annonces), des
nombreuses applications web publient les items d'informations les plus
récentes dans des documents RSS ou Atom qui sont ensuite collectés et
transformés par des agrégateurs RSS comme Google Reader ou Yahoo! News.
Nos recherches se placent dans le contexte d'agrégation de documents RSS
dynamiques et se focalisent sur l'optimisation du rafraîchissement et de
l'estimation en ligne du changement de contenu RSS hautement dynamique.
Nous introduisons et formalisons deux mesures qualitatives spécifiques à
l'agrégation de flux RSS qui reflètent la complétude et la fraîcheur
moyenne du flux d'information agrégé. Nous proposons une stratégie de
rafraîchissement du "meilleur effort" qui maximise la qualité de
l'agrégation par rapport aux autres approches existantes avec un nombre
moyen de rafraîchissements identique. Nous présentons une analyse des
caractéristiques générales de l'activité de publication des flux RSS réels
en se focalisant surtout sur la dimension temporelle. Nous étudions
différentes modèles et méthodes d'estimation de changements d'activité et
leur intégration dans les stratégies de rafraîchissement. Les méthodes
présentés ont été implémentés et testés sur des données synthétiques et
des flux RSS réels.
Abstract:
With the rapidly increasing number of sources and devices connected to the
Internet and the growing success of the Web 2.0 services, the online
available web content is getting more and more diverse and dynamic. In
order to facilitate the efficient dissemination of the evolutive and often
temporary information streams (news, messages, announcements), many web
applications publish their most recent information items as RSS and Atom
documents which are then collected and transformed by RSS aggregators like
Google Reader or Yahoo! News.
Our research is placed in the context of content-based feed aggregation
systems and is focused on the design of optimal refresh strategies for
highly dynamic RSS feed sources. First, we introduce two quality measures
specific to aggregation feeds which reflect the information completeness
and average freshness of the result feeds. We propose a best-effort feed
refresh strategy that achieves maximum aggregation quality compared with
all other existing policies with the same average number of refreshes. We
analyse the characteristics of a representative collection of real-world
RSS feeds focusing on their temporal dimension. We study different online
change estimation models and techniques and their integration with our
refresh strategy. The presented methods have been implemented and tested
against synthetic and real-world RSS feed data sets.
----------------------------------------------------------------------
Membres du jury :
Philippe Lamarre, INSA Lyon [Rapporteur]
David Gross-Amblard, Université de Rennes 1 [Rapporteur]
Laure Berti-Equille, IRD, Aix-Marseille Université [Examinateur]
Matthieu Cord, UPMC Paris 6 [Examinateur]
Bernd Amann, UPMC Paris 6 [Directeur de thèse]
Thierry Artières, UPMC Paris 6 [Codirecteur de thèse]
Cordialement,
Roxana Gabriela HORINCAR
Inscription à :
Publier les commentaires (Atom)
Aucun commentaire:
Enregistrer un commentaire