Bonjour,
Toutes mes excuses pour le changement d'horaire de ma soutenance!
Ma soutenance de thèse est avancée à 14:00h,
Bonne journée,
Amal
-------- Message original --------
Objet: [Invitation] Soutenance de thèse d'Amal Oudni le mercredi 9
juillet 2014
Date: 2014-07-02 18:37
De: Amal Oudni <Amal.Oudni@lip6.fr>
À: Tout Lip6 <tout-lip6@lip6.fr>
(english version below)
Bonjour,
J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée :
"Fouille de données par extraction de motifs graduels :
contextualisation et enrichissement"
La soutenance aura lieu le : mercredi 9 juillet à 14h30,
elle se tiendra à :
Université Pierre et Marie Curie, 4 place Jussieu
75005 Paris - Salle 105, Tour 25/26.
Vous êtes également conviés au pot qui suivra dans la même salle.
http://www.upmc.fr/fr/vie_des_campus/handicap/plan_d_acces.html
=============================================================
Membres du jury :
=============================================================
Bernd Amann Professeur LIP6 - UPMC
Examinateur
Sadok Ben Yahia Professeur URPAH - Université des
Sciences de Tunis Examinateur
Anne Laurent Professeur LIRMM - Université
Montpellier 2 Rapportrice
Marie-Jeanne Lesot Maître de Conférences [HDR] LIP6 - UPMC
Directrice de thèse
Olivier Pivert Professeur ENSSAT - Université
Rennes 1 Rapporteur
Maria Rifqi Maître de Conférences [HDR] LEMMA - Université
Paris 2 Directrice de thèse
==============================================================
Résumé
==============================================================
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction
de connaissances et de la fouille de données appliquée à des bases de
données numériques ou floues afin d'extraire des résumés linguistiques
sous la forme de motifs graduels exprimant des corrélations de
co-variations
des valeurs des attributs, de la forme « plus la température augmente,
plus la pression augmente ». Notre objectif est de les contextualiser
et de les enrichir en proposant différents types de compléments
d'information afin d'augmenter leur qualité et leur apporter une
meilleure interprétation.
Nous proposons quatre formes de nouveaux motifs : nous avons
tout d'abord étudié les motifs dits « renforcés », qui effectuent,
dans le cas de données floues, une contextualisation par intégration
d'attributs complémentaires, ajoutant des clauses introduites
linguistiquement par l'expression « d'autant plus que ».
Ils peuvent être illustrés par l'exemple « plus la température diminue,
plus le volume de l'air diminue, d'autant plus que sa densité augmente
».
Ce renforcement est interprété comme validité accrue des motifs
graduels.
Nous nous sommes également intéressées à la transposition de la notion
de renforcement aux règles d'association classiques en discutant de
leurs interprétations possibles et nous montrons leur apport limité.
Nous proposons ensuite de traiter le problème des motifs graduels
contradictoires rencontré par exemple lors de l'extraction simultanée
des deux motifs « plus la température augmente, plus l'humidité augmente
»
et « plus la température augmente, plus l'humidité diminue ». Pour gérer
ces contradictions, nous proposons une définition contrainte du support
d'un motif graduel, qui, en particulier, ne dépend pas uniquement du
motif
considéré, mais aussi de ses contradicteurs potentiels. Nous proposons
également deux méthodes d'extraction, respectivement basées sur un
filtrage a posteriori et sur l'intégration de la contrainte du
nouveau support dans le processus de génération.
Nous introduisons également les motifs graduels caractérisés, définis
par l'ajout d'une clause linguistiquement introduite par l'expression
« surtout si » comme par exemple « plus la température diminue,
plus l'humidité diminue, surtout si la température varie dans [0, 10] °C
» :
la clause additionnelle précise des plages de valeurs sur lesquelles
la validité des motifs est accrue. Nous formalisons la qualité
de cet enrichissement comme un compromis entre deux contraintes
imposées à l'intervalle identifié, portant sur sa taille et sa validité,
ainsi qu'extension tenant compte de la densité des données.
Nous proposons une méthode d'extraction automatique basée sur des outils
de morphologie mathématique et la définition d'un filtre approprié
et transcription.
Nous définissons aussi les motifs graduels accélérés, qui qualifient les
corrélations entre les valeurs d'attributs et contextualisent les motifs
graduels par l'expression linguistique « rapidement », comme par exemple
« plus la température augmente, plus l'humidité augmente rapidement ».
Nous traduisons cet effet comme une contrainte de convexité que nous
modélisons comme une contrainte de covariation supplémentaire,
qui s'exprime dans le même formalisme que les contraintes d'ordre des
motifs classiques.
Nous proposons et étudions deux méthodes d'extraction, par filtrage
a posteriori et intégration dans le processus de génération.
Pour chacune des quatre contextualisation proposées, nous étudions
et formalisons la sémantique et l'interprétation souhaitées.
Nous proposons ensuite des mesures de qualité pour évaluer la validité
des motifs proposés. Nous proposons et implémentons des algorithmes
efficaces d'extraction automatique des motifs qui maximisent les
critères
de qualité proposés.
Enfin, nous réalisons une étude expérimentale, à la fois sur des données
jouets pour étudier et analyser le comportement des approches proposées,
et sur des données réelles pour montrer la pertinence des approches
et l'intérêt des motifs extraits.
Les expérimentations réalisées pour chaque approche permettent de
valider
l'apport des différentes formes de motifs proposées, ainsi que leur
interprétation associée.
--------------------- english version -----------------------
Hello,
I am pleased to invite you to my PhD defence entitled:
"Data mining based on gradual itemsets extraction: contextualization and
enrichment"
The defence will take place on:
Wednesday, July 9th at 2.30 pm,
it will be held in french at:
Université Pierre et Marie Curie, 4 place Jussieu
75005 Paris - Salle 105, Tour 25/26.
You are also invited afterwards for drinks and celebration in the same
room.
http://www.upmc.fr/fr/vie_des_campus/handicap/plan_d_acces.html
=============================================================
Jury members
=============================================================
Bernd Amann Professeur LIP6 - UPMC
Examinateur
Sadok Ben Yahia Professeur URPAH - Université
des Sciences de Tunis Examinateur
Anne Laurent Professeur LIRMM - Université
Montpellier 2 Rapportrice
Marie-Jeanne Lesot Maître de Conférences [HDR] LIP6 - UPMC
Directrice de thèse
Olivier Pivert Professeur ENSSAT - Université
Rennes 1 Rapporteur
Maria Rifqi Maître de Conférences [HDR] LEMMA - Université
Paris 2 Directrice de thèse
==============================================================
Summary
==============================================================
This thesis's works belongs to the framework of knowledge extraction
and data mining applied to numerical or fuzzy data in order to extract
linguistic summaries in the form of gradual itemsets: the latter express
correlation between attribute values of the form « the more the
temperature
increases, the more the pressure increases ». Our goal is to
contextualize
and enrich these gradual itemsets by proposing different types of
additional
information so as to increase their quality and provide a better
interpretation.
We propose four types of new itemsets: first of all, reinforced gradual
itemsets,
in the case of fuzzy data, perform a contextualization by integrating
additional
attributes linguistically introduced by the expression « all the more ».
They can be illustrated by the example « the more the temperature
decreases,
the more the volume of air decreases, all the more its density increases
».
Reinforcement is interpreted as increased validity of the gradual
itemset.
In addition, we study the extension of the concept of reinforcement to
association rules,
discussing their possible interpretations and showing their limited
contribution.
We then propose to process the contradictory itemsets that arise for
example
in the case of simultaneous extraction of « the more the temperature
increases,
the more the humidity increases » and « the more the temperature
increases,
the less the humidity decreases ». To manage these contradictions,
we define a constrained variant of the gradual itemset support, which,
in particular, does not only depend on the considered itemset, but also
on its potential
contradictors. We also propose two extraction methods: the first one
consists in filtering,
after all itemsets have been generated, and the second one integrates
the filtering process
within the generation step.
We introduce characterized gradual itemsets, defined by adding a clause
linguistically
introduced by the expression « especially if » that can be illustrated
by a sentence
such as « the more the temperature decreases, the more the humidity
decreases,
especially if the temperature varies in [0, 10] °C »: the additional
clause precise value
ranges on which the validity of the itemset is increased. We formalize
the quality of this
enrichment as a trade-off between two constraints imposed to identified
interval,
namely a high validity and a high size, as well as an extension taking
into account
the data density. We propose a method to automatically extract
characterized gradual
based on appropriate mathematical morphology tools and the definition of
an
appropriate filter and transcription.
We define also accelerated gradual itemsets that quantify the
correlations between
the attribute values and contextualize the gradual itemset through the
linguistic
expression « quickly », for example « the more the temperature
increases, the more
quickly the humidity increases ».
We propose an interpretation as convexity constraint imposed on the
relation between
the attributes composing a considered gradual itemset that we model as
an additional constraint covariation, which is expressed in the same
formalism
as constraints of classical gradual itemsets.
We propose and study two extraction methods, by filtering a posteriori
and
integrating in the generation process.
For each of the four proposed contextualizations, we study and formalize
the semantics
and desired interpretation. We then propose quality measures to evaluate
the validity of the given enriched itemset.
We also propose and implement efficient algorithms for the automatic
extraction
of itemsets that maximize the proposed quality criteria. Finally, we
carry out
experimental studies both on artificial data,
to study and analyze the behavior of the proposed approaches, and on
real data
to show the relevance of the proposed approaches and the interest of
extracted
enriched itemsets.
The experimental results for each approach allow to validate the
contribution
of the different proposed gradual itemsets and their associated
interpretation.
Amal
Inscription à :
Publier les commentaires (Atom)
Aucun commentaire:
Enregistrer un commentaire