J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée
« Analyse probabiliste du contenu de pages Web : Représentation des
sémantiques de contenu dans le paradigme Bayésien »
(Probabilistic Web Content Analysis. Representation of Content
Semantics in the Bayesian Diagnostic Paradigm.)
ainsi qu'au pot qui suivra.
Cette soutenance aura lieu à l'Université Pierre et Marie Curie le
lundi 12 décembre 2011 à 11h00 dans la salle Laurière (salle 101
couloir 25-26, 1er étage).
Plan d'accès : http://www.lip6.fr/informations/comment.php
Composition du Jury
=========================
Rapporteur :
Boris CHIDLOVSKII, Chercheur Principal au Xerox Research Centre
Europe
Isabelle TELLIER, Professeur à l'Université Sorbonne Nouvelle
Examinateur :
Mathieu CORD, Professeur à l'Université Pierre et Marie Curie
Gregory GREFENSTETTE, Directeur Scientifique chez Exalead
Directeur de thèse :
Patrick GALLINARI, Professeur à l'Université Pierre et Marie Curie
Résumé
============
Une identification automatique des contenus pertinents de pages Web,
comme les titres, paragraphes, publicités, images de produits où
commentaires des utilisateurs, facilite une large variété
d'applications réelles, de la transcription du texte en parole pour
les malvoyants aux moteurs de recherche structurés. Finalement, une
telle identification nécessite toujours une segmentation du contenu
ainsi qu'une classification des segments résultants donné par des
catégories sémantiques dépendant de l'application concrète. Nous
proposons donc d'aborder l'analyse du contenu de pages Web dans un
cadre de classification interdépendante, établissant la cohérence
sémantique à travers des fonctions caractéristiques d'interaction
qui décrivent la configuration de plusieurs régions de contenu
sémantiquement indivisible.
Un des obstacles majeurs à l'accès pertinent au contenu de pages Web
est que leur organisation sémantique est souvent inappropriée. En
conséquence, il est généralement impossible de caractériser une
région de contenu intéressante avec certitude. Dans cette thèse,
nous proposons de traiter les incertitudes dans une analyse du
contenu de pages Web avec un cadre probabiliste cohérent : le
paradigme Bayésien. Nous tentons d'éclairer les conditions pour
lesquelles un modèle probabiliste peut être justifié en déduisant sa
forme de représentation à partir d'hypothèses sur des quantités
observables qui sont basées sur les concepts d'échangeabilité,
d'indépendance conditionnelle et de suffisance. En particulier, nous
examinons différentes dépendances Markoviennes entre des catégories
de contenu d'une même page Web et discutons comment on peut prendre
en compte la structure qui existe entre des pages et des sites.
Nous présentons également une analyse informelle des
caractéristiques, élucidant l'information disponible dans le
contenu, la structure et le style d'une page Web. Une telle analyse
est essentielle à la fois pour une modélisation probabiliste
formelle et pour une bonne performance prédictive. En outre, nous
introduisons une nouvelle base de données publique, appelée News600.
Elle contient 604 pages Web réelles de 206 sites, avec plus de 30
catégories sémantiques annotées de manière précise. Enfin, nous
menons une série d'expériences sur ce corpus, en comparant des
approches différentes pour classifier le contenu de nouvelles pages
Web. Elle démontre que même des modèles relativement simples dans
notre cadre atteignent des résultats significativement meilleurs que
l'état de l'art actuel.
Abstract
==============
An automatic identification of meaningful content sections on web
pages, such as titles, paragraphs, advertisements, product images or
user comments, facilitates a large number of applications, ranging
from speech rendering for the visually impaired over contextual
advertisement to structured web search. Ultimately, such an
identification always necessitates both, a partitioning of the
content and a classification of the resulting partitions into a
number of application-dependent semantic categories. We hence
propose to approach the analysis of web content in an interdependent
classification framework, integrating semantic coherence, just as in
segmentation, via interaction features which describe the semantic
configuration of two or more semantically atomic content regions.
One of the major obstacles to gaining meaningful access to web
contents is their semantically inappropriate organisation and
markup. As a consequence, it generally is impossible to characterise
an interesting content region with certainty. In this thesis, we
propose to treat the uncertainties arising in an analysis of web
content in a coherent probabilistic framework, the Bayesian
diagnostic paradigm, and attempt to illuminate the conditions under
which some probability model might be justified, deriving its form
of representation from assumptions about observable quantities such
as region features and semantics, utilising the concepts of
exchangeability, conditional independence and sufficiency. In
particular, we examine different Markovian dependencies between the
semantic content categories within individual web pages and discuss
how to take into account the structure that exists between pages and
sites.
We equally present an informal feature analysis which elucidates the
manifold information available in the content, structure and style
of a web page. Such an analysis is a quintessential prerequisite to
both formal probabilistic modelling and high predictive performance.
Furthermore, we introduce a new, publicly available data set of 604
real-world news web pages from 177 distinct sites with accurate
annotations based on 30 distinct semantic categories, termed the
News600 corpus. Finally, we conduct a series of experiments on the
News600 corpus to empirically compare a number of different
approaches for web news content classification. It demonstrates that
even relatively simple models in our framework achieve significantly
better results than the current state of the art.
Cordialement,
Alex Spengler
Aucun commentaire:
Enregistrer un commentaire