Désolée pour les réceptions multiples. Je corrige le lieu de ma 
soutenance de thèse.
Elle aura lieu dans la salle 105 - couloir 25-26, 1er étage, *tour 26* 
(pas tour 25).
Je joins l'annonce corrigée.
Bien cordialement,
Young-Min KIM
================================================================================
Bonjour,
C'est avec le plus grand plaisir que je vous invite à ma soutenance de 
thèse intitulée
<<Apprentissage d'Espaces de Concepts pour le Partitionnement 
Non-Supervisé de Documents Textuels>>
ainsi qu'au pot qui suivra.
=============
Date et lieu
=============
Jeudi 16 décembre 2010 à 14:00 au LIP6, 4 place Jussieu 75005 Paris
salle 105 - couloir 25-26, 1er étage, *tour 26*.
=============
Jury
=============
M. Bernd AMANN, Université Pierre et Marie Curie, Examinateur
M. Massih-Reza AMINI ,Université Pierre et Marie Curie, Directeur de thèse
M. Patrice BELLOT, Université d'Avignon, Examinateur
M. Patrick GALLINARI, Université Pierre et Marie Curie, Directeur de thèse
M. Eric GAUSSIER, Université Joseph Fourier, Rapporteur
M. Pascal PONCELET, Université Montpellier 2, Rapporteur
=============
Résumé
=============
La tâche de partitionnement de documents est l'un des problèmes centraux 
en Recherche d'Information (RI). Les résultats de partitionnement 
peuvent non-seulement donner une indication sur la structure d'une 
collection de documents, mais ils sont aussi souvent utilisés dans 
différents tâches de RI.
Dans cette thèse, nous nous somme intéressés à développer des techniques 
probabilistes à base de modèles latents pour cette tâche. Dans ce but, 
nous proposons quatre techniques différentes basées sur l'observation 
que le partitionnement est bien plus effectif dans un espace de concepts 
trouvé automatiquement que dans l'espace de sac-de-mots.
Cette observation est issue des résultats d'un partitionnement en deux 
étapes, où dans une première phase, les mots de la collection sont 
regroupés suivant l'hypothèse que les termes apparaissant dans les mêmes 
documents avec les mêmes fréquences sont similaires. Les documents sont 
ensuite regroupés dans l'espace induit par ces groupements de mots, 
appelés concepts de mots. Sur ce principe, nous étendons le modèle 
latent PLSA pour un partitionnement simultané des mots et des documents. 
Nous proposons ensuite une stratégie de sélection de modèles permettant 
de trouver efficacement le meilleur modèle parmi tous les choix 
possibles. Et aussi, nous montrons comment le PLSA peut être adaptés 
pour le partitionnement multi-vus de documents multi-langues.
Bien cordialement,
Young-Min KIM
Aucun commentaire:
Enregistrer un commentaire