Soutenances de Thèses en Informatique: décembre 2011

jeudi 8 décembre 2011

soutenance de thèse de FENG Haifeng

Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Études des liens entre couleurs et émotions à partir des annotations
spontanées" ainsi qu'au pot qui suivra.

Cette soutenance aura lieu le jeudi 15 décembre 2011 à 9h30 au Laboratoire
d'Informatique de Paris 6 (LIP6) à Jussieu
(http://www.lip6.fr/informations/comment.php), salle 105 au 1er étage tour
26, couloir 26-25.

=========
Jury
=========

Rapporteurs :

Herman AKDAG, Professeur, LIASD - Université Paris 8
Carole BOUCHARD, HDR, LCPI - Arts et Métiers ParisTech

Examinateurs :

Amine AÏT YOUNES, Maître de conférences, CResTIC - IUT de
Reims-Châlons-Charleville
Bernadette BOUCHON-MEUNIER, Directeur de recherche, CNRS - LIP6 - UPMC -
Sorbonne Universités
Marcin DETYNIECKI, Chargé de recherche, CNRS - LIP6 - UPMC - Sorbonne
Université
Jean-Gabriel GANASCIA, Professeur, LIP6 - UPMC - Sorbonne Universités
Marie-Jeanne LESOT, Maître de conférences, LIP6 - UPMC - Sorbonne Universités
Jean-François OMHOVER, Maître de conférences, LCPI - Arts et Métiers
ParisTech

=========
Résumé :
=========

Cette thèse a pour objectif l'identification et la caractérisation de
relations entre couleurs et émotions sur une base constituée d'images
annotées. Plus précisément nous nous intéressons à la découverte
automatique de relations entre trois concepts : les «couleurs objectives»
données par le contenu chromatique des images, les «couleurs subjectives»
présentes dans des étiquettes fournies lors de l'annotation spontanée des
images, et les «émotions» également exprimées par le biais d'étiquettes
associées spontanément aux images.

Pour réaliser cette étude, nous construisons un corpus d'expérimentation
basé sur le site web FlickR. Cette interface de gestion et partage
d'images en ligne s'appuie sur un service d'indexation qui permet aux
créateurs des images d'étiqueter leurs ressources en leur laissant le
libre choix des étiquettes. Nous avons collecté environ 22000 images
annotées à la fois par des étiquettes chromatiques et émotionnelles,
c'est-à-dire pour lesquelles les contenus chromatique et émotionnel ont
été jugés importants par les utilisateurs.

Les caractérisations des 3 concepts sont établies à partir de diverses
représentations chromatiques, incluant un codage objectif classique, un
codage subjectif, et un niveau intermédiaire constitué d'un codage
objectif interprété. Pour ce dernier, nous avons proposé, construit et
analysé un dictionnaire visuel basé, non sur des hyperplans frontières
discriminants entre couleurs, mais sur des points de référence
représentatifs de chaque couleur.

En ce qui concerne la caractérisation des émotions, réalisée par arbres de
décision et règles d'association, notre approche montre non seulement que
les couleurs subjectives permettent de retrouver des relations connues
dans la littérature psychologique (p. ex. entre noir et peur), mais aussi
des relations moins attendues, par exemple entre rose et surprise. Les
expérimentations montrent aussi que les codages subjectif et objectif
interprété donnent des résultats similaires. Ceci signifie que tous deux
sont également importants – d'un point de vue applicatif – pour la
détection des émotions dans les images à partir des couleurs. Toutefois,
d'un point de vue analytique, le codage subjectif apparaît plus proche des
émotions.

Les relations entre les couleurs objectives et subjectives sont plus
fortes que celles entre couleurs et émotions, ce qui semble attendu
puisque ces relations sont plus immédiates. Les résultats expérimentaux
montrent toutefois que l'identification des couleurs subjectives, ou
couleurs saillantes, reste un problème difficile, indiquant que les
annotations choisies spontanément ne sont pas en relation simple avec la
couleur dominante des images ni des combinaisons des proportions des
couleurs.

Cordialement,

--
FENG Haifeng

lundi 5 décembre 2011

Invitation à la soutenance de thèse de Xiaomin Wang‏

Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Deciding on the type of the degree distribution of a graph (network)
from traceroute-like measurements".

Cette soutenance aura lieu le 13 décembre 2011 à 10h00 au Laboratoire
d'Informatique de Paris 6 (LIP6) à Jussieu
(http://www.lip6.fr/informations/comment.php), couloir 25-26, salle 105.

=====================
JURY
=====================

Rapporteur:
Mme. Delporte-Gallet Carole Professeur, Université de Paris 7-Denis Diderot
M. Hwang Hsien-kuei Senior Researcher, Institute of Statistical
Science Academia Sinica

Examineur:
M. Crespelle Christophe Maître de conférences, Université Claude
Bernard Lyon 1
M. Latapy Matthieu Directeur de recherche (co-directeur), CNRS
affecté au LIP6
Mme. Legrand Bénédicte Maître de conférences (HDR), Université
Pierre et Marie Curie, LIP6
Mme. Soria Michèle Professeur (directrice), Université Pierre et
Marie Curie, LIP6

=====================
Résumé
=====================
The degree distribution of the Internet topology is considered as one
of its main properties. However, it is only known through a measure-
ment procedure which gives a biased estimate. This measurement may
in first approximation be modeled by a BFS (Breadth-First Search)
tree. We explore here our ability to infer the type (Poisson or power-
law) of the degree distribution from such a limited knowledge. We
design procedures which estimate the degree distribution of a graph
from a BFS or multi-BFS trees, and show experimentally (on models
and real-world data) that our approaches succeed in making the diffe-
rence between Poisson and power-law degree distribution and in some
cases can also estimate the number of links. In addition, we establish
a method, which is a diminishing urn, to analyze the procedure of the
queue. We analyze the profile of the BFS tree from a random graph
with a given degree distribution. The expected number of nodes and
the expected number of invisible links at each level of BFS tree are
two main results that we obtain. Using these informations, we propose
two new methodologies to decide on the type of the underlying graph.

Cordialement,
Xiaomin

Invitation à la soutenance de thèse de Alex Spengler

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée

« Analyse probabiliste du contenu de pages Web : Représentation des
sémantiques de contenu dans le paradigme Bayésien »

(Probabilistic Web Content Analysis. Representation of Content
Semantics in the Bayesian Diagnostic Paradigm.)

ainsi qu'au pot qui suivra.

Cette soutenance aura lieu à l'Université Pierre et Marie Curie le
lundi 12 décembre 2011 à 11h00 dans la salle Laurière (salle 101
couloir 25-26, 1er étage).

Plan d'accès : http://www.lip6.fr/informations/comment.php

Composition du Jury
=========================

Rapporteur :

Boris CHIDLOVSKII, Chercheur Principal au Xerox Research Centre
Europe
Isabelle TELLIER, Professeur à l'Université Sorbonne Nouvelle

Examinateur :

Mathieu CORD, Professeur à l'Université Pierre et Marie Curie
Gregory GREFENSTETTE, Directeur Scientifique chez Exalead

Directeur de thèse :

Patrick GALLINARI, Professeur à l'Université Pierre et Marie Curie

Résumé
============

Une identification automatique des contenus pertinents de pages Web,
comme les titres, paragraphes, publicités, images de produits où
commentaires des utilisateurs, facilite une large variété
d'applications réelles, de la transcription du texte en parole pour
les malvoyants aux moteurs de recherche structurés. Finalement, une
telle identification nécessite toujours une segmentation du contenu
ainsi qu'une classification des segments résultants donné par des
catégories sémantiques dépendant de l'application concrète. Nous
proposons donc d'aborder l'analyse du contenu de pages Web dans un
cadre de classification interdépendante, établissant la cohérence
sémantique à travers des fonctions caractéristiques d'interaction
qui décrivent la configuration de plusieurs régions de contenu
sémantiquement indivisible.

Un des obstacles majeurs à l'accès pertinent au contenu de pages Web
est que leur organisation sémantique est souvent inappropriée. En
conséquence, il est généralement impossible de caractériser une
région de contenu intéressante avec certitude. Dans cette thèse,
nous proposons de traiter les incertitudes dans une analyse du
contenu de pages Web avec un cadre probabiliste cohérent : le
paradigme Bayésien. Nous tentons d'éclairer les conditions pour
lesquelles un modèle probabiliste peut être justifié en déduisant sa
forme de représentation à partir d'hypothèses sur des quantités
observables qui sont basées sur les concepts d'échangeabilité,
d'indépendance conditionnelle et de suffisance. En particulier, nous
examinons différentes dépendances Markoviennes entre des catégories
de contenu d'une même page Web et discutons comment on peut prendre
en compte la structure qui existe entre des pages et des sites.

Nous présentons également une analyse informelle des
caractéristiques, élucidant l'information disponible dans le
contenu, la structure et le style d'une page Web. Une telle analyse
est essentielle à la fois pour une modélisation probabiliste
formelle et pour une bonne performance prédictive. En outre, nous
introduisons une nouvelle base de données publique, appelée News600.
Elle contient 604 pages Web réelles de 206 sites, avec plus de 30
catégories sémantiques annotées de manière précise. Enfin, nous
menons une série d'expériences sur ce corpus, en comparant des
approches différentes pour classifier le contenu de nouvelles pages
Web. Elle démontre que même des modèles relativement simples dans
notre cadre atteignent des résultats significativement meilleurs que
l'état de l'art actuel.

Abstract
==============

An automatic identification of meaningful content sections on web
pages, such as titles, paragraphs, advertisements, product images or
user comments, facilitates a large number of applications, ranging
from speech rendering for the visually impaired over contextual
advertisement to structured web search. Ultimately, such an
identification always necessitates both, a partitioning of the
content and a classification of the resulting partitions into a
number of application-dependent semantic categories. We hence
propose to approach the analysis of web content in an interdependent
classification framework, integrating semantic coherence, just as in
segmentation, via interaction features which describe the semantic
configuration of two or more semantically atomic content regions.

One of the major obstacles to gaining meaningful access to web
contents is their semantically inappropriate organisation and
markup. As a consequence, it generally is impossible to characterise
an interesting content region with certainty. In this thesis, we
propose to treat the uncertainties arising in an analysis of web
content in a coherent probabilistic framework, the Bayesian
diagnostic paradigm, and attempt to illuminate the conditions under
which some probability model might be justified, deriving its form
of representation from assumptions about observable quantities such
as region features and semantics, utilising the concepts of
exchangeability, conditional independence and sufficiency. In
particular, we examine different Markovian dependencies between the
semantic content categories within individual web pages and discuss
how to take into account the structure that exists between pages and
sites.

We equally present an informal feature analysis which elucidates the
manifold information available in the content, structure and style
of a web page. Such an analysis is a quintessential prerequisite to
both formal probabilistic modelling and high predictive performance.
Furthermore, we introduce a new, publicly available data set of 604
real-world news web pages from 177 distinct sites with accurate
annotations based on 30 distinct semantic categories, termed the
News600 corpus. Finally, we conduct a series of experiments on the
News600 corpus to empirically compare a number of different
approaches for web news content classification. It demonstrates that
even relatively simple models in our framework achieve significantly
better results than the current state of the art.

Cordialement,
Alex Spengler

Invitation à la soutenance de thèse de Tuan Minh PHAM

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée
"Modélisation et analyse de la distribution de contenus dans un réseau
DTN".

Elle aura lieu au Laboratoire d'Informatique de Paris 6 (LIP6) à
Jussieu (http://www.lip6.fr/informations/comment.php), le mercredi 14
décembre 2011 à 15h00 en salle 25-26/105 et vous êtes également
chaleureusement conviés au pot qui suivra en salle 26-00/101.

==========
Jury
==========

Le jury sera composé de:

Rapporteurs :
Philippe Nain, Directeur de Recherche, INRIA
Kavé Salamatian, Professeur, Université de Savoie

Examinateurs :
Mostafa Ammar, Professeur, Georgia Institute of Technology
Mario Gerla, Professeur, University of California, Los Angeles
Sebastien Tixeuil, Professeur, UPMC Sorbonne Universités

Encadrant :
Serge Fdida, Professeur, UPMC Sorbonne Universités

==========
Résumé
==========

Cette thèse étudie la faisabilité de la diffusion de contenu sur un
réseau tolérant aux délais (DTN) dans une zone urbaine. L'application
cible est la distribution de la version électronique d'un journal dans
une grande ville. Bien que des contraintes de temps ne s'appliquent
pas de manière stricte, il est tout de même attendu que la diffusion
d'information se fasse dans un délai raisonnable. Deux métriques de
performance sont considérés : le délai de message et le temps de
propagation. Le délai de message est le délai nécessaire pour
transmettre un contenu à partir d'un nœud mobile à un autre nœud,
tandis que le temps de propagation est le délai nécessaire pour
diffuser un contenu sur un ensemble de nœuds du réseau.

Premièrement, notre objectif est de mesurer de manière analytique les
performances d'un environnement DTN simple lorsqu'un contenu est
distribué exclusivement à travers des contacts entre les nœuds
mobiles. Nos contributions résultent de la prise en compte de la
probabilité d'intérêt/acceptation dans l'expression en forme fermée et
l'expression asymptotique du délai moyen de message. La probabilité
d'intérêt/acceptation représente la probabilité qu'un contenu soit
accepté par un nœud qui manifeste de l'intérêt pour ce contenu lors
d'un contact. L'expression asymptotique permet de déterminer des
moyens efficaces d'améliorer le délai moyen de messages dans une zone
où la densité des nœuds mobiles est basse ou haute. Nous montrons
aussi une relation entre le délai moyen de message et le temps moyen
de propagation dans de tels environnements.

Deuxièmement, si le délai est jugé excessif, nous suggérons un
déploiement de kiosques de données dans l'environnement afin
d'améliorer les performances de la diffusion de contenu. Les kiosques
de données sont des dispositifs simples qui reçoivent les contenus
directement depuis leur source, le plus souvent en utilisant des
réseaux filaires ou cellulaires. Un des problèmes posés pour concevoir
efficacement un tel réseau est le nombre de kiosques de données qu'il
faut déployer pour satisfaire aux objectifs de performance. Pour
répondre à ce problème, nous déterminons les valeurs de la borne
supérieure et de la borne inférieure du nombre de kiosques de données
nécessaires pour distribuer le contenu dans une zone géographique en
optimisant un temps moyen de propagation pris comme objectif. Nous
montrons aussi une propriété importante que ces bornes varient
linéairement avec le taux de contact entre un nœud mobile et un
kiosque de données.

Enfin, nous considérons le problème de l'emplacement optimal des
kiosques de données dans un scénario plus réaliste où les utilisateurs
se déplacent en utilisant un système de transport (comme le métro ou
le train de banlieue) qui relie plusieurs régions. Nous analysons le
choix des stations de métro où installer un kiosque de données pour
optimiser le temps moyen de propagation. Les résultats de l'analyse
confirment que l'emplacement optimal des kiosques de données n'est pas
seulement influencé par les caractéristiques d'une région, mais aussi
par le nombre d'utilisateurs mobiles qui recevront le contenu. Nous
validons nos résultats analytiques par des simulations en prenant
différents modèles de mobilité ainsi que des données de mobilité
résultant de mesures réelles.

==========
Abstract
==========

This dissertation studies the practicality of content distribution
over a Delay Tolerant Network (DTN) in an urban area. The target
application is the distribution of the electronic version of a
newspaper in a large city. Although strict time constraints do not
apply, spreading the information should be achieved within a
reasonable delay. Two performance metrics, the spreading time and the
message delay, are considered. The message delay is the delay required
to transmit content from a mobile node to another node, while the
spreading time is the delay needed for the content to spread over a
part of the network.

Firstly, our goal is to increase our understanding of the performance
of a simple DTN environment when content is distributed solely through
inter-contact of mobile nodes. We contribute both the close-form
expression and the asymptotic expression of the expected message delay
to the literature when considering the probability of
interest/acceptance for a given piece of content at each contact. The
asymptotic expression provides the insights on the efficient ways for
improving the expected message delay in the case of an area with low
or high density of mobile nodes. We also show a relationship between
the expected message delay and the expected spreading time in such
environment.

Secondly, if the delay is found to be excessive, we suggest the
deployment of some data kiosks in the environment to better support
the dissemination of content. Data kiosks are simple devices that
receive content directly from the source, usually using wired or
cellular networks. A key issue when designing efficiently such network
is to determine the number of data kiosks required to satisfy a
performance target. We investigate both an upper bound and a lower
bound of the number of data kiosks to distribute the content over a
geographical area within an expected spreading time objective. We also
show the important property that those bounds scale linearly with the
contact rates between a mobile node and a data kiosk.

Finally, we consider the question of the optimal locations of data
kiosks in a more realistic scenario where users move along a
transportation system (like a subway or suburban train) that connects
several regions. We provide an analysis used to decide which subway
stop should host a data kiosk to optimize the spreading time. These
findings support the view that the optimal locations of data kiosks
are influenced not only by the conditions of a region but also by the
target number of mobile users that will receive the contents.
Analytical results are validated by simulations under a number of
mobility models and real datasets.

Cordialement,

----------

Tuan Minh Pham
http://www-npa.lip6.fr/~tuanminh/

vendredi 2 décembre 2011

soutenance de thèse de François Nel

Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Suivi des mouvements informationnels : construction, modélisation et
simulation de graphes de citations, application à la détection de buzz"
ainsi qu'au pot qui suivra.

Cette soutenance aura lieu le 7 décembre 2011 à 9h30 au Laboratoire
d'Informatique de Paris 6 (LIP6) à Jussieu
(http://www.lip6.fr/informations/comment.php), salle 105 au 1er étage tour
26, couloir 26-25.

=========
Jury
=========

Rapporteurs :

Marie-Aude Aufaure, Professeur, MAS - Ecole Centrale Paris
Djamel Zighed, Professeur, ERIC - Université Lumière Lyon 2

Examinateurs :

Bernd Amann, Professeur, LIP6 - UPMC - Sorbonne Universités
Bernadette Bouchon-Meunier, Directeur de recherche, LIP6 - UPMC - Sorbonne
Universités
Thomas Delavallade, Ingénieur, Thales Communications
Marie-Jeanne Lesot, Maître de conférences, LIP6 - UPMC - Sorbonne
Universités
Camille Roth, Chargé de recherche, CAMS - CNRS/EHESS

=========
Résumé :
=========

La démocratisation du Web en tant que support de diffusion de
l'information a considérablement modifié l'environnement médiatique.
L'information est sujette à de nouveaux phénomènes ayant parfois des
conséquences majeures sur des décisions politiques, stratégiques ou
économiques. Ces phénomènes s'observent sous la forme de mouvements
informationnels, dont l'étude fait l'objet de cette thèse.

La démarche que nous avons retenue pour aborder l'étude des mouvements
informationnels se base sur l'étude du graphe des citations entre sites
d'information sur le Web. Nous la structurons selon trois axes principaux
: la construction, l'analyse et la génération d'un graphe de citations,
puis nous appliquons nos travaux à la problématique de la détection de
buzz.

Pour construire le graphe de citations, nous proposons une méthode de
crawling adaptée à l'extraction de corpus de relations de citations entre
sources Web. La stratégie choisie se base sur une extraction exhaustive
des publications des sources et s'accompagne du nettoyage des pages afin
d'en extraire les liens hypertextes utiles.

L'analyse du graphe de citations consiste en une méthode de
caractérisation des nœuds du graphe, considérés comme des sources
d'information ayant des comportements distincts. Elle nous permet
d'identifier quatre comportements de publication des sources à partir des
données issues du Web, se distinguant principalement par la fréquence de
publication, la diversité des sources citées et la capacité à exploiter
les spécificités de publication sur le Web.

En ce qui concerne la problématique de génération, et afin de mener à bien
des expérimentations sur des corpus variés, l'objectif est de générer des
graphes de citations réalistes, c'est-à-dire capables de reproduire les
comportements de publication identifiés sur les données réelles. Ainsi,
nous proposons un modèle de génération de graphes de citations
suffisamment flexible et adaptable en imitant au mieux le processus de
publication réel d'un article sur un site. Ce modèle est implémenté en un
outil de simulation adapté à l'étude des phénomènes de diffusion
informationnels.

Enfin, nous proposons une mise en application de la méthode de génération
ainsi que de l'outil de simulation dans le cadre d'une étude sur la
détection de buzz. Pour ce faire, nous étudions le concept de buzz en
proposant une définition sur laquelle nous basons plusieurs formalisations
adaptées aux données disponibles. L'interprétation des expérimentations
effectuées nous conduit à attribuer les méthodes de détection proposées à
des cas d'application spécifiques selon la sémantique qui peut leur être
attribuée.

Cordialement,

--
François Nel

Soutenances de Thèses en Informatique

jeudi 8 décembre 2011

soutenance de thèse de FENG Haifeng

lundi 5 décembre 2011

Invitation à la soutenance de thèse de Xiaomin Wang‏

Invitation à la soutenance de thèse de Alex Spengler

Invitation à la soutenance de thèse de Tuan Minh PHAM

vendredi 2 décembre 2011

soutenance de thèse de François Nel

Membres

Archives du blog