Bonjour,
j'ai le plaisir de vous inviter à ma soutenance de thèse intitulée :
"Learning-to-Rank consistent surrogates for Information Retrieval tasks"
La soutenance aura lieu le jeudi 4 octobre 2012 à 11h00,
en salle 25-26/101 (1er étage),
au Laboratoire d'Informatique de Paris 6 (LIP6),
4 Place Jussieu, 75005 Paris.
Le traditionnel pot, auquel vous êtes conviés, suivra dans la même salle.
---------------------------------------------------------------------
Résumé de la thèse :
Dans l'ère technologique actuelle, gérer, contrôler et rechercher
l'information est devenue une composante importante de notre vie
quotidienne tout en étant un challenge crucial pour les chercheurs. Dans
cette thèse, nous abordons le problème de la recherche d'objets parmi une
plus grande collection, domaine appelé Recherche d'Information.
Nous l'étudierons dans le contexte d'Apprentissage Statistique de
Fonctions d'Ordonnancement où le but est d'apprendre une fonction de score
tout en cherchant à minimiser un risque reflétant la qualité de la liste
d'ordonnancement. Ce risque non-optimisable en pratique est alors
substitué par un risque auxiliaire suivant la propriété de la consistance.
Basés sur cette théorie, nous montrons une façon de dériver deux fonctions
de coût auxiliaires consistantes et qui seront validées expérimentalement.
Ces considérations théoriques ne peuvent cependant pas être directement
appliquées puisque les algorithmes d'apprentissage sont très sensibles à
la qualité des données. Pour y remédier, nous nous focalisons sur les
pretraitements nécessaires pour rendre les algorithmes d'apprentissage
d'ordonnancement efficaces sur deux cas d'études : les problèmes de
Recherche d'Information XML et de Recherche d'Information Texte-Image.
Dans les deux cas, les algorithmes d'apprentissage sont dépendants de la
qualité de la supervision, de l'échantillonnage des exemples
d'entrainement et des caractéristiques de description extraites. Pour
clore ces études, nous décrivons les expériences où nous améliorons les
performances par rapport aux autres méthodes de l'état-de-l'art.
abstract :
In this era of technology, managing, controlling and retrieving
informations sources has become a key part of our daily lives, and at
the same time it presents a crucial challenge to researchers.
In this thesis we tackle the problem of searching for items from a whole
collection of objects, this is usually called Information Retrieval.
We address in a Learning-to-Rank fashion where the goal is to learn a
scoring function while minimizing a risk which reflects the quality of the
ranked list. In practice, this risk cannot be directly optimized and the
main goal is to design related surrogate losses thanks to the consistency
property.
Starting from this property, we show a way to derive two consistent
surrogate loss functions with respect to some traditional Information
Retrieval metrics. The resultant experiments prove our methodology.
All these theoretical considerations cannot be directly applied due to
the fact that learning algorithms are sensitives to the data quality.
We focus our attention on the preprocessing that needs to be done
on the data to make Learning-to-Rank algorithms efficient in a
two case study: XML retrieval and Text-Image Retrieval problems.
For both, Learning-to-Rank algorithms are dependent on the
quality of the supervision, the sampling of the training examples
and the extracted features describing them. Finally, we conduct a series
of experiments on these two problems to outperform traditional
state-of-the-art Information Retrieval methods.
Composition du jury :
Mohand Boughanem -- Université Paul Sabatier -- Rapporteur
Patrick Gallinari -- Université Pierre et Marie Curie -- Directeur
Patrice Perny -- Université Pierre et Marie Curie -- Examinateur
Liva Ralaivola -- Université Aix-Marseille -- Rapporteur
Nicolas Usunier -- Université Pierre et Marie Curie -- Co-directeur
Nicolas Vayatis -- Ecole Normale Supérieure de Cachan -- Examinateur
Bien cordialement,
David
Inscription à :
Publier les commentaires (Atom)
Aucun commentaire:
Enregistrer un commentaire