J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée :
"L'Apprentissage Machine pour Assister l'Annotation de Documents.
Clustering Visuel Interactif, Apprentissage Actif et Extraction
Automatique des Descripteurs" ainsi qu'au pot qui suivra.
La soutenance se déroulera le vendredi 19 juin 2009 à 14h00 au Laboratoire
d'Informatique de Paris 6 (LIP6) dans la salle 549 (5ème étage).
Adresse :
104, Avenue du Président Kennedy, 75016, Paris
Devant le jury composé de :
Thierry ARTIÈRES Professeur à l'Université Pierre et Marie Curie (Paris
6), examinateur
Boris CHIDLOVSKII Principal Scientist au Centre Européen de Recherche de
Xerox, directeur de thèse
Michel CRUCIANU Professeur au Conservatoire National des Arts et Métiers,
rapporteur
Patrick GALLINARI Professeur à l'Université Pierre et Marie Curie (Paris
6), directeur de thèse
Eric GAUSSIER Professeur à l'Université Joseph Fourier (Grenoble 1),
rapporteur de Thèse
Résumé :
Cette thèse porte sur l'apprentissage machine pour l'annotation.
L'objectif de l'annotation est d'insérer une information additionnelle à
un objet (e.g. images, documents, vidéos, données biologiques, etc.). Ces
informations permettent une meilleure compréhension ou organisation de ces
objets par une machine. Alors que l'annotation manuelle est le plus
souvent coûteuse, les travaux récents de la littérature proposent
d'utiliser les méthodes d'apprentissage machine pour automatiser la tâche
d'annotation. L'apprentissage machine a connu une progression très
importante et son application à l'annotation a montré expérimentalement
son efficacité pour de nombreux domaines.
Au cours de notre travail de thèse, nous avons cherché à faire évoluer
l'apprentissage machine afin de rendre son utilisation plus facile
(définition des descripteurs et élaboration du corpus d'apprentissage) ou
plus flexible afin de permettre à un utilisateur de s'impliquer et guider
le processus d'apprentissage machine.
Dans la première partie de ce mémoire, nous introduisons l'apprentissage
machine interactif. Nous proposons plusieurs approches dans lesquelles
nous combinons des outils de visualisation scientifique à l'apprentissage
machine. Ces approches se présentent comme une alternative à
l'apprentissage automatique, particulièrement pertinente lorsque le coût
d'annotation ou le coût d'erreur de prédiction est élevé et lorsque
l'utilisateur possède des connaissances du domaine utiles pour guider
l'apprentissage machine.
Dans une deuxième partie de nos travaux, nous avons cherché à réduire le
travail de définition des descripteurs. Nous avons d'une part étudié et
amélioré les méthodes pour la sélection automatique de grands ensembles de
descripteurs génériques, puis nous avons proposé une nouvelle approche
pour la génération automatique de ces descripteurs pour des données de
type séquentielle.
Notre travail de thèse a été motivé par la tâche spécifique d'annotation
sémantique de documents semi-structurés. Nos travaux ont été évalués
expérimentalement sur des collections de documents mais aussi sur d'autres
ensembles de données issues de domaines divers. De même, afin de vérifier
la pertinence de nos méthodes, nous avons déployé un prototype pour
l'annotation sémantique de documents par apprentissage actif, ainsi qu'une
application Web, pour l'annotation interactive.
Bien cordialement,
Loïc Lecerf
Aucun commentaire:
Enregistrer un commentaire