lundi 24 janvier 2011

Soutenance de thèse de Amélie Medem Kuatse (Mercredi 02 février 2011 à 10h30, au LIP6, salle 105)

Bonjour à tous,


C'est avec un plaisir non dissimulé que je vous invite à ma soutenance
de thèse intitulée :
"Conception de Mécanismes d'Amélioration de la Gestion d'Incidents
dans les Réseaux IP".

Ainsi qu'au pot qui suivra.

La soutenance se déroulera le : Mercredi 02 février 2011 à 10h30, au
LIP6 salle 105 (barre 25-26) 1er étage.
Le pot se déroulera en salle 26-00/116 (escalier 26, barre 26-00, 1er étage).

Voici un plan d'accès :
http://www.upmc.fr/fr/universite/campus_et_sites/a_paris_et_en_idf/jussieu.html


=======*=
Résumé
=======*=

Les réseaux IP des opérateurs acheminent une grande partie des données
transitant chaque jour dans le monde, et doivent donc fournir une
fiabilité toujours plus importante. Or, ces réseaux sont
quotidiennement sujets à des incidents résultant de travaux de
maintenance ou de pannes imprévues. Beaucoup de ces incidents sont
inévitables parce que leur origine est extérieure aux opérateurs
réseaux. De plus, lorsqu'ils surviennent les dégâts sur les réseaux
peuvent être considérables. Il est donc important de concevoir des
outils pour prévenir l'apparition des incidents ou du moins limiter
leurs conséquences sur le réseau. Apporter de l'automatisation au
processus de résolution de pannes et à la maintenance permettrait
d'accélérer ces procédures et ainsi de réduire le temps
d'indisponibilité du réseau.

Cette thèse s'intéresse à la détection automatique des incidents
réseaux. Pour parvenir à ce but, il est nécessaire d'acquérir une
connaissance approfondie des incidents et de leurs effets sur le
réseau. Les réseaux IP utilisent des tickets d'incidents pour le suivi
de l'évolution de leurs incidents. Les tickets sont des documents
textes contenant la description (et donc la cause) des incidents ayant
abouti à l'intervention des opérateurs. Les effets des incidents
peuvent être observables à travers des messages d'alarmes provenant de
sources diverses (par exemple, SNMP, syslogs ---fichiers systèmes des
routeurs, protocoles de routage, etc). Dans cette thèse, nous nous
intéressons aux messages d'alarmes du routage. Notre principale
observation est que l'historique des tickets d'incidents combinés aux
messages de routage peut constituer une base de donnée intéressante
pour l'analyse des causes des incidents réseaux et de leurs
manifestations sur le routage. Nous pouvons donc apprendre la
signature des incidents réseaux pour les détecter automatiquement.

Nous proposons tout d'abord, Troubleminer, un mécanisme qui se base
sur des techniques de fouilles de texte pour (1) extraire
automatiquement les causes des incidents à l'intérieur des tickets et
(2) structurer les tickets d'incidents dans une hiérarchie facilement
exploitable par les opérateurs réseaux. Nous développons ensuite une
heuristique pour la mise en liaison des causes des incidents dans les
tickets avec leurs événements de routage correspondants, dans deux
réseaux IP opérationnels: un opérateur VPN et Internet2. Nous trouvons
que 4% (Opérateur VPN) et 23% (Internet2) des événements de routage
dans ces réseaux sont critiques, c'est-à-dire coïncident avec des
tickets d'incidents. Enfin, nous démontrons la faisabilité de la
détection de ces événements critiques à l'aide des algorithmes k-NN et
Random Forest. Nos résultats montrent que nous pouvons détecter
efficacement 70% d'événements de routage critiques dans les deux
réseaux.


=======*=
Mot-clés
=======*=

Réseaux IP, Routage IP, Tickets d'incidents, Clustering de textes,
Classification, Apprentissage machine


=======*=
Abstract
=======*=

IP networks of operators carry the most data traffic of the world
every day, and so should provide an increasingly important
reliability. However, these networks are often subject to incidents
that arise from maintenance works or unexpected failures. Many of
these incidents are unavoidable, mainly because their origin are
external to network operators. Moreover, when they happen the network
can undergo considerable damages. It is therefore important to
develop tools to prevent network incidents outbreak, or at least to
limit their impact on the network. In this context, automatic
procedures can help to accelerate troubleshooting procedures and
maintenance works and so, to reduce the overall downtime of the network.

The main focus of this thesis is to automatically detect IP network
incidents. To reach this goal, we need a deep understanding of these
incidents and their effects on the network. Network operators use
trouble tickets to track all the steps of troubleshooting and
maintenance activities. The history of trouble tickets carries
valuable information for network management. Tickets are text
documents that store the description (and the cause) of incidents
which have required operator intervention. The effects of these
incidents are observables through alarm messages which come from
different sources (for instance, SNMP, router syslogs, or routing
protocols), we focus on routing alarm messages. Our key observation is
that operators already use trouble ticketing systems to record all
events that require their intervention. Hence, we can use the history
of trouble tickets combined with intradomain routing messages to train
a classifier. Then, we can apply this classifier online to process
intradomain routing messages and automatically single out the critical
events.

As a first step, we propose Troublemine, a mechanism based on document
clustering techniques to (1) automatically extract the causes of
network incidents from tickets and (2) organise a collection of
trouble tickets into an hierarchy that network operators can easily
used. Then, we developp an heuristic to correlate trouble tickets with
instability routing events in two operationnal networks: a VPN
provider and the Internet2 backbone network. We find that 4% (VPN
operator) and 23% (Internet2) of routing events in these networks are
critical, which means that they do coincide with trouble tickets.
Finally, we show the faisability of detecting critical routing events
by means of k-NN and Random Forest algorithms. Our results show that
we can accurately pinpoint approximately 70% of critical events for
both networks.


=======*=
Keywords
=======*=

IP networks, IP routing, Trouble tickets, Document clustering,
Classification, Machine learning


=======+=
Jury
=======+=

Rapporteurs:
--- Damien MAGONI, Professeur, Université de Bordeaux,
--- Philippe OWEZARSKI, Chercheur, CNRS,

Soutenance devant le jury composé de :
--- Patrick GALLINARI, Professeur, UPMC Sorbonne Universités (Examinateur)
--- Nöemie SIMONI, Professeur, ENST Paris (Examinateur)
--- Olivier FESTOR, Chercheur, INRIA (Examinateur)
--- Mickael MEULLE, Chercheur, Orange Labs R&D (France Telecom R&D)
(Examinateur)
--- Serge FDIDA, Professeur, UPMC Sorbonne Universités (Directeur de thèse)


Très bonne semaine.

Cordialement.
--
Amelie Medem Kuatse
Phd Student
Université Pierre & Marie Curie - LIP6/CNRS
Desk (00) 120
(+33) 01 44 27 88 39

Aucun commentaire: