fn;quoted-printable:Jordi Creus Tom=C3=A0s
n;quoted-printable:Creus Tom=C3=A0s;Jordi
org:ENSEA;DITN
adr;quoted-printable;quoted-printable:4 place Jussieu;;Couloir 25-26, =C3=89tage 5, Bureau 503;Paris;=C3=8Ele-de-France;75005;FRANCE
email;internet:Jordi.Creus@lip6.fr
title:ATER & doctorant
tel;work:01 44 27 47 23
url:http://www-ia.lip6.fr/~creusj
version:2.1
end:vcard
Bonjour,
Vous êtes cordialement invité à ma soutenance de thèse intitulée :
« ROSES : Un moteur de requêtes continues pour l'aggrégation de
flux RSS à large échelle »
La soutenance aura lieu le Vendredi 7 Décembre 2012 à 10h00, en salle
25-26/105 (1er étage), au Laboratoire d'Informatique de Paris 6 (LIP6),
4 Place Jussieu, 75005 Paris.
Un pot suivra dans la salle 26-00/101 (Noguez), auquel vous êtes aussi conviés.
----------------------------------------------------------------------
Abstract:
RSS and Atom are generally less known than the HTML web format, but they are omnipresent in many
modern web applications for publishing highly dynamic web contents. Nowadays, news sites publish thousands
of RSS/Atom feeds, often organized into general topics like politics, economy, sports, culture, etc. Weblog and
microblogging systems like Twitter use the RSS publication format, and even more general social media like
Facebook produce an RSS feed for every user and trending topic. This vast number of continuous data-sources
can be accessed by using general-purpose feed aggregator applications like Google Reader, desktop clients like
Firefox or Thunderbird and by RSS mash-up applications like Yahoo! pipes, Netvibes or Google News. Today,
RSS and Atom feeds represent a huge stream of structured text data which potential is still not fully exploited.
In this thesis, we first present ROSES –Really Open Simple and Efficient Syndication–, a data model and
continuous query language for RSS/Atom feeds. ROSES allows users to create new personalized feeds from
existing real-world feeds through a simple, yet complete, declarative query language and algebra. The ROSES
algebra has been implemented in a complete scalable prototype system capable of handling and processing
ROSES feed aggregation queries. The query engine has been designed in order to scale in terms of the number
of queries. In particular, it implements a new cost-based multi-query optimization approach based on query
normalization and shared filter factorization. We propose two different factorization algorithms: (i) STA, an
adaption of an existing approximate algorithm for finding minimal directed Steiner trees [CCC+98], and (ii)
VCA, a greedy approximation algorithm based on efficient heuristics outperforming the previous one with respect
to optimization cost. Our optimization approach has been validated by extensive experimental evaluation on
real world data collections.
Résumé de la thèse :
Les formats RSS et Atom sont moins connus du grand public que le format HTML pour la publication
d’informations sur le Web. Néanmoins les flux RSS sont présents sur tous les sites qui veulent publier des flux
d’informations évolutives et dynamiques. Ainsi, les sites d’actualités publient des milliers de fils RSS/Atom,
souvent organisés dans différentes thématiques (politique, économie, sports, société...). Chaque blog possède son
propre flux RSS, et des sites de micro-blogage comme Twitter ou de réseaux sociaux comme Facebook publient
les messages d’utilisateurs sous forme de flux RSS. Ces immenses quantités de sources de données continues sont
accessibles à travers des agrégateurs de flux comme Google Reader, des lecteurs de messages comme Firefox,
Thunderbird, mais également à travers des applications mash-up comme Yahoo! pipes, Netvibes ou Google
News.
Dans cette thèse, nous présentons ROSES –Really Open Simple and Efficient Syndication–, un modèle de
données et un langage de requêtes continues pour des flux RSS/Atom. ROSES permet aux utilisateurs de créer
des nouveaux flux personnalisés à partir des flux existants sur le web à travers un simple langage de requêtes
déclaratif. ROSES est aussi un système capable de gérer et traiter des milliers de requêtes d’agrégation ROSES
en parallèle et un défi principal traité dans cette thèse est le passage à l’échelle par rapport au nombre de requêtes.
En particulier, on propose une nouvelle approche d’optimisation multi-requête fondée sur la factorisation des
filtres similaires. Nous proposons deux algorithmes de factorisation: (i) STA, une adaptation d’un algorithme
d’approximation pour calculer des arbres de Steiner minimaux [CCC+98], et (ii) VCA, un algorithme glouton
qui améliore le coût CPU d’optimisation du précédant. Nous avons validé notre approche d’optimisation avec
un important nombre de tests sur des données réelles.
[CCC+98] M. Charikar, C. Chekuri, T. Cheung, Z. Dai, A. Goel, S. Guha, and M. Li.
Approximation algorithms for directed Steiner problems. In Proceedings of the
ninth annual ACM-SIAM symposium on Discrete algorithms, SODA ’98.
----------------------------------------------------------------------
Membres du jury :
Mme Ioana MANOLESCU, Directeur de Recherche au Inria [Rapporteur]
M. Jean-Marc PETIT, Professeur des Universités à l’INSA Lyon [Rapporteur]
Mme Anne DOUCET, Professeur des Universités à l’UPMC [Examinateur]
Mme Béatrice FINANCE, Maître de Conférences à l’UVSQ (HDR) [Examinateur]
M. Bernd AMANN, Professeur des Universités à l’UPMC [Directeur de thèse]
M. Dan VODISLAV, Professeur des Universités à l’UCP [Directeur de thèse]
Bien cordialement,
--
Jordi CREUS TOMÀS – ATER & Ph.D. Candidate
Laboratoire d'Informatique de Paris 6
Couloir 25-26, étage 5, bureau 503
4 place Jussieu
75252 PARIS CEDEX 05
Office: +33 1 44 27 47 23
Webpage: http://www-ia.lip6.fr/~creusj
Jordi CREUS TOMÀS – ATER & Ph.D. Candidate
Laboratoire d'Informatique de Paris 6
Couloir 25-26, étage 5, bureau 503
4 place Jussieu
75252 PARIS CEDEX 05
Office: +33 1 44 27 47 23
Webpage: http://www-ia.lip6.fr/~creusj
Aucun commentaire:
Enregistrer un commentaire