J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée :
     Le transfert adaptatif en apprentissage par renforcement
     Application à la simulation de schéma de jeux tactiques
La soutenance aura lieu le mercredi 24 juin 2009 à 14h dans Site  
Passy-Kennedy - salle 847 (http://www.lip6.fr/informations/ 
comment.php?kennedy) devant le jury composé de :
CHEVALEYRE Yann, Maître de Conférences à l'Université Paris-Dauphine  
(Encadrant)
EL FALLAH SEGHROUCHNI Amal, Professeur à l'Université Pierre et Marie  
Curie (Examinateur)
GARCIA Frédérick, Directeur de Recherches à l'Institut National de la  
Recherche Agronomique (Rapporteur)
PREUX Philippe, Professeur à l'Université de Lille 3 (Rapporteur)
RAMALHO Geber, Professeur à l'Universidade Federal de Pernambuco  
(Examinateur)
RIOULT François, Maître de Conférences à l'Université de Caen Basse- 
Normandie (Invité)
RIPOLL Hubert, Professeur à l'Université de la Méditerranée (Invité)
ZUCKER, Jean-Daniel Directeur de Recherches à l'Institut de Recherche  
pour le Développement (Directeur)
Résumé :
L'un des principaux objectifs de l'apprentissage par renforcement est  
de développer des algorithmes capables de générer des politiques de  
bonne qualité en un temps le plus réduit possible. Les progrès dans  
ce domaine sont tels que les performances de certains algorithmes  
récents approchent des limites théoriques. Malheureusement, la  
plupart des taches d'apprentissage issues du monde réel sont de  
grande dimension, et l'apprentissage prend dès lors un temps  
considérable.
Pour accélérer l'apprentissage, l'une des voies possibles consiste à  
guider le processus d'exploration à l'aide de connaissances du  
domaine. Lorsque ces connaissances prennent la forme d'une politique  
apprise précédemment sur une tâche reliée à la tache courante, on  
parle de transfert de politique. La plupart des algorithmes de  
transfert de politique existants sont basés sur une hypothèse  
implicite : ils supposent que la politique disponible est d'une bonne  
qualité sur la tache courante. Clairement, lorsque cette hypothèse  
n'est pas respectée, les performances de ces algorithmes se dégradent  
bien en dessous des performances des méthodes d'apprentissage par  
renforcement standards.
Le but de cette thèse est de lever cette hypothèse, en proposant des  
algorithmes de transfert de politique capables de s'adapter à la  
qualité de la politique disponible. Plus précisément, nous  
introduisons un paramètre nommé le taux de transfert, qui contrôle à  
quel point l'algorithme se fiera à la politique disponible. De plus,  
nous proposons d'optimiser ce taux afin de faire le meilleur usage de  
cette politique. Ainsi, les algorithmes que nous proposons dans cette  
thèse offrent une certaine robustesse face à la politique disponible,  
ce qui n'était pas le cas des approches précédentes.
Ces algorithmes sont évalués sur deux domaines différents : un  
problème jouet (le gridworld), et une application d'aide à  
l'entraineur de football. Cette dernière application propose à un  
entraineur de saisir des schémas tactiques à l'aide d'une interface  
graphique, et lui permet ensuite de visualiser des agents-joueurs en  
train de réaliser ces mêmes schémas. Pour satisfaire dans des délais  
raisonnables la requête de l'entraineur, l'apprentissage par  
renforcement seul ne suffit pas, et nos algorithmes de transfert ont  
été appliqués sur ce domaine avec succès.
Bien cordialement,
Aydano Machado
Aucun commentaire:
Enregistrer un commentaire