J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée :
«Clustering et Volume des Données»
ainsi qu'au pot qui suivra. La soutenance aura lieu le lundi 28 septembre
à 14h30 au LIP6 (Site Passy-Kennedy), en salle 847.
Plan d'accès : http://www.lip6.fr/informations/comment.php
La thèse sera soutenue devant le jury composé de :
Mr. Christophe Ambroise, Professeur à l'Université d'Évry (Rapporteur)
Mr. Pierre Gançarski, Maître de Conférences à l'Université Louis Pasteur
de Strasbourg (Rapporteur)
Mr. Georges Hébrail, Professeur à l'École Nationale Supérieure des
Télécommunications (Examinateur)
Mr. Matthieu Cord, Professeur à l'Université Pierre et Marie Curie
(Examinateur)
Mr. Patrick Gallinari, Professeur à l'Université Pierre et Marie Curie
(Directeur)
Mr. Kavé Salamatian, Maître de Conférences à l'Université Pierre et
Marie Curie (Encadrant)
=========
Résumé
=========
Le clustering est une tâche fondamentale de la fouille de données. Ces
dernières années, le volume
des données (à la fois le nombre d'objets et le nombre de
caractéristiques, de "dimensions", les dé-
crivant) croît sans arrêt. Les méthodes de clustering doivent s'adapter
à cette évolution qui a des
impacts à la fois qualitatifs (la pertinence des résultats) et
opérationnels (la complexité du traitement).
Nous étudions dans cette thèse comment se sont adaptées les méthodes de
clustering le long
de ces deux axes. Après une analyse des méthodes existantes à travers ce
prisme, nous en arrivons
au constat que les méthodes qui se concentrent sur la réduction de la
complexité opérationnelle ne
sont généralement pas efficaces en haute dimension, et réciproquement.
Nous prenons ensuite ensuite
le cadre abstrait des méthodes à base de grille : le clustering est
effectué indirectement à travers un
résumé des données. Le résumé est constitué d'indices de proximité entre
les points et doit se construire
avec une complexité respectant des contraintes opérationnelles strictes.
Nous proposons ensuite une
méthode dans ce cadre : le résumé est construit à partir de projections
linéaires des données. Les
indices de proximité ainsi accumulés sont agrégés pour obtenir le
clustering. La méthode a une
complexité opérationnelle satisfaisante et a de bonnes performances en
haute dimension.
Cordialement,
Marc-Ismaël Akodjènou
Aucun commentaire:
Enregistrer un commentaire