Désolée pour les réceptions multiples. Je corrige le lieu de ma
soutenance de thèse.
Elle aura lieu dans la salle 105 - couloir 25-26, 1er étage, *tour 26*
(pas tour 25).
Je joins l'annonce corrigée.
Bien cordialement,
Young-Min KIM
================================================================================
Bonjour,
C'est avec le plus grand plaisir que je vous invite à ma soutenance de
thèse intitulée
<<Apprentissage d'Espaces de Concepts pour le Partitionnement
Non-Supervisé de Documents Textuels>>
ainsi qu'au pot qui suivra.
=============
Date et lieu
=============
Jeudi 16 décembre 2010 à 14:00 au LIP6, 4 place Jussieu 75005 Paris
salle 105 - couloir 25-26, 1er étage, *tour 26*.
=============
Jury
=============
M. Bernd AMANN, Université Pierre et Marie Curie, Examinateur
M. Massih-Reza AMINI ,Université Pierre et Marie Curie, Directeur de thèse
M. Patrice BELLOT, Université d'Avignon, Examinateur
M. Patrick GALLINARI, Université Pierre et Marie Curie, Directeur de thèse
M. Eric GAUSSIER, Université Joseph Fourier, Rapporteur
M. Pascal PONCELET, Université Montpellier 2, Rapporteur
=============
Résumé
=============
La tâche de partitionnement de documents est l'un des problèmes centraux
en Recherche d'Information (RI). Les résultats de partitionnement
peuvent non-seulement donner une indication sur la structure d'une
collection de documents, mais ils sont aussi souvent utilisés dans
différents tâches de RI.
Dans cette thèse, nous nous somme intéressés à développer des techniques
probabilistes à base de modèles latents pour cette tâche. Dans ce but,
nous proposons quatre techniques différentes basées sur l'observation
que le partitionnement est bien plus effectif dans un espace de concepts
trouvé automatiquement que dans l'espace de sac-de-mots.
Cette observation est issue des résultats d'un partitionnement en deux
étapes, où dans une première phase, les mots de la collection sont
regroupés suivant l'hypothèse que les termes apparaissant dans les mêmes
documents avec les mêmes fréquences sont similaires. Les documents sont
ensuite regroupés dans l'espace induit par ces groupements de mots,
appelés concepts de mots. Sur ce principe, nous étendons le modèle
latent PLSA pour un partitionnement simultané des mots et des documents.
Nous proposons ensuite une stratégie de sélection de modèles permettant
de trouver efficacement le meilleur modèle parmi tous les choix
possibles. Et aussi, nous montrons comment le PLSA peut être adaptés
pour le partitionnement multi-vus de documents multi-langues.
Bien cordialement,
Young-Min KIM