J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Classifieur probabiliste et Séparateur à Vaste Marge. Application à la
classification de texte et à l'étiquetage d'image".
ainsi qu'au pot qui suivra.
La soutenance aura lieu le vendredi 17 février 2012 à 10h00 sur le Campus de
Jussieu en salle 105 couloir 25-26 (1er étage).
Composition du Jury
=========================
Rapporteurs :
Mme. Sylvia THIRIA, Professeur à l'Université Versaille Saint Quentin en
Yvelines.
M. Thierry PAQUET, Professeur à l'Université de Rouen.
Directeur de thèse :
M. Patrick GALLINARI, Professeur à l'Université Pierre et Marie Curie.
Examinateur :
M. Thierry ARTIERES, Professeur à l'Université Pierre et Marie Curie.
Résumé
============
Cette thèse propose des estimateurs de probabilités a posteriori pour des
Séparateur à Vaste Marge. Elle comporte une partie théorique et une partie
expérimentale.
La première contribution que nous présentons dans cette thèse est
d'introduire un classifieur probabiliste basé sur des SVM pour la
classification multi-classes. L'approche que nous utilisons est l'approche
1 contre 1, où pour un problème à k classes k(k - 1)/2 classifieurs sont
entrainés. Les sorties binaires de ces classifieurs forment un espace de
votes dans lequel sera prise la décision de classe. Nous introduisons un
espace de vote enrichi qui permet de prendre en compte des relations entre
l'ensemble des classes du problème et proposons une méthode pour apprendre
à partir de cet espace binaire à estimer les probabilités a posteriori des
classes.
La seconde contribution concerne le problème de la classification
multi-étiquettes et la prise en compte de dépendances entre étiquettes. La
prédiction de sorties structurées a été ces dernières années un domaine
extrêmement actif et de nombreux modèles basés sur des extensions des SVMs
ou des modèles graphiques on été proposés. Nombre de ces modèles ont une
complexité qui empêche toute application sur des données réelles. Nous
introduisons un classifieur multi-étiquettes basé sur un formalisme de
modèle graphique non dirigé. Nous proposons une méthode d'inférence
approchée de complexité limitée qui permet une utilisation pratique de ces
méthodes. Nous incorporons dans ce modèle les classifieurs probabilistes
mentionnés plus haut pour estimer les probabilités nécessaires au calcul
d'inférence.
La troisième contribution est la validation expérimentale de ces idées et
algorithmes. Une première application nous permet de tester notre
classifieur probabiliste multi-classes. Il s'agit du Défi DEFT 1 qui est
une compétition française sur la classification de textes. Les données sur
lesquelles nous avons travaillé traitent de classification en thème et en
genre de corpus journalistiques. La seconde application que nous avons
traitée porte sur l'étiquetage d'images en utilisant une information de
dépendance entre les étiquettes. Elle correspond à une tâche proposée dans
la compétition internationale ImageCLEF08 2. Nous proposons un modèle
graphique adapté à cette tâche qui nous permet de valider ce modèle
multi-étiquettes.
==============================================
TRINH Anh Phuc.
Bureau 523, Tour 26-00, LIP6.
4 place de Jussieu.
75005 Paris.
Tél : (+33) 01 44 27 38 11
================================================