lundi 22 juin 2009

Soutenance de thèse - Aydano Machado

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée :
Le transfert adaptatif en apprentissage par renforcement
Application à la simulation de schéma de jeux tactiques

La soutenance aura lieu le mercredi 24 juin 2009 à 14h dans Site
Passy-Kennedy - salle 847 (http://www.lip6.fr/informations/
comment.php?kennedy) devant le jury composé de :

CHEVALEYRE Yann, Maître de Conférences à l'Université Paris-Dauphine
(Encadrant)
EL FALLAH SEGHROUCHNI Amal, Professeur à l'Université Pierre et Marie
Curie (Examinateur)
GARCIA Frédérick, Directeur de Recherches à l'Institut National de la
Recherche Agronomique (Rapporteur)
PREUX Philippe, Professeur à l'Université de Lille 3 (Rapporteur)
RAMALHO Geber, Professeur à l'Universidade Federal de Pernambuco
(Examinateur)
RIOULT François, Maître de Conférences à l'Université de Caen Basse-
Normandie (Invité)
RIPOLL Hubert, Professeur à l'Université de la Méditerranée (Invité)
ZUCKER, Jean-Daniel Directeur de Recherches à l'Institut de Recherche
pour le Développement (Directeur)


Résumé :
L'un des principaux objectifs de l'apprentissage par renforcement est
de développer des algorithmes capables de générer des politiques de
bonne qualité en un temps le plus réduit possible. Les progrès dans
ce domaine sont tels que les performances de certains algorithmes
récents approchent des limites théoriques. Malheureusement, la
plupart des taches d'apprentissage issues du monde réel sont de
grande dimension, et l'apprentissage prend dès lors un temps
considérable.

Pour accélérer l'apprentissage, l'une des voies possibles consiste à
guider le processus d'exploration à l'aide de connaissances du
domaine. Lorsque ces connaissances prennent la forme d'une politique
apprise précédemment sur une tâche reliée à la tache courante, on
parle de transfert de politique. La plupart des algorithmes de
transfert de politique existants sont basés sur une hypothèse
implicite : ils supposent que la politique disponible est d'une bonne
qualité sur la tache courante. Clairement, lorsque cette hypothèse
n'est pas respectée, les performances de ces algorithmes se dégradent
bien en dessous des performances des méthodes d'apprentissage par
renforcement standards.

Le but de cette thèse est de lever cette hypothèse, en proposant des
algorithmes de transfert de politique capables de s'adapter à la
qualité de la politique disponible. Plus précisément, nous
introduisons un paramètre nommé le taux de transfert, qui contrôle à
quel point l'algorithme se fiera à la politique disponible. De plus,
nous proposons d'optimiser ce taux afin de faire le meilleur usage de
cette politique. Ainsi, les algorithmes que nous proposons dans cette
thèse offrent une certaine robustesse face à la politique disponible,
ce qui n'était pas le cas des approches précédentes.

Ces algorithmes sont évalués sur deux domaines différents : un
problème jouet (le gridworld), et une application d'aide à
l'entraineur de football. Cette dernière application propose à un
entraineur de saisir des schémas tactiques à l'aide d'une interface
graphique, et lui permet ensuite de visualiser des agents-joueurs en
train de réaliser ces mêmes schémas. Pour satisfaire dans des délais
raisonnables la requête de l'entraineur, l'apprentissage par
renforcement seul ne suffit pas, et nos algorithmes de transfert ont
été appliqués sur ce domaine avec succès.

Bien cordialement,

Aydano Machado

Aucun commentaire: