lundi 21 juillet 2014
soutenance de thèse Moustapha Cissé 25 Juillet 2014, 10h, salle 105-LIP6
J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée
"Efficient Extreme Classification".
Elle aura lieu au Laboratoire d'Informatique de Paris 6 (LIP6) à
Jussieu, le **vendredi 25 juillet 2014 à 10h00 en salle 25-26/105** et
vous êtes
également chaleureusement conviés au pot qui suivra.
Plan d'accès :
http://www.upmc.fr/fr/universite/campus_et_sites/a_paris_et_en_idf/jussieu.html
Cordialement,
Moustapha Cissé
----------------------------------------------------------------
Jury
----------------------------------------------------------------
Eric Gaussier, LIG (Grenoble-France) Reviewer
Georges Paliouras, Demokritos (Athens-Greece), Reviewer
Christophe Marsala, LIP6 (Paris-France), Examinator
Nicolas Usunier UTC/CNRS (Compiegne-France), Examinator
Thierry Artieres LIP6 (Paris-France), Co-advisor
patrick Gallinari LIP6 (Paris-France),Co-advisor
----------------------------------------------------------------
Résumé de la thèse (l'exposé sera en anglais)
----------------------------------------------------------------
Humans naturally and instantly recognize relevant objects in images
despite the large number of potential visual concepts. They can also
instantly tell which topics are relevant for a given text document
even though these topics are chosen among thousands of semantic
concepts. This ability to quickly categorize information is an
important aspect of high level intelligence and endowing machines with
it is an important step towards artificial intelligence.
We propose in this thesis new methods to tackle classification
problems with a large number of labels, also called extreme
classification. The proposed approaches aim at reducing the inference
complexity in comparison with the classical methods (such as
one-versus-rest) in order to make learning machines usable in a real
life scenario. We propose two types of methods respectively designed
for single label and multilabel classification.
The first proposed method uses existing hierarchical information among
the categories in order to learn low dimensional binary representation
of the categories. The second type of approaches, dedicated to
multilabel problems, adapts the framework of Bloom Filters to
represent subsets of labels with sparse low dimensional binary
vectors. For both methods, binary classifiers are learned to predict
the new low dimensional representation of the categories and several
algorithms are also proposed to recover the set of relevant labels.
Large scale experiments validate the methods.
Soutenance de thèse Moustapha Cissé 25 Juillet 2014, 10h
J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée
"Efficient Extreme Classification".
Elle aura lieu au Laboratoire d'Informatique de Paris 6 (LIP6) à
Jussieu, le **vendredi 25 juillet 2014 à 10h00 en salle 25-26/101** et
vous êtes
également chaleureusement conviés au pot qui suivra.
Plan d'accès :
http://www.upmc.fr/fr/universite/campus_et_sites/a_paris_et_en_idf/jussieu.html
Cordialement,
Moustapha Cissé
----------------------------------------------------------------
Jury
----------------------------------------------------------------
Eric Gaussier, LIG (Grenoble-France) Reviewer
Georges Paliouras, Demokritos (Athens-Greece), Reviewer
Christophe Marsala, LIP6 (Paris-France), Examinator
Nicolas Usunier UTC/CNRS (Compiegne-France), Examinator
Thierry Artieres LIP6 (Paris-France), Co-advisor
patrick Gallinari LIP6 (Paris-France),Co-advisor
----------------------------------------------------------------
Résumé de la thèse (l'exposé sera en anglais)
----------------------------------------------------------------
Humans naturally and instantly recognize relevant objects in images
despite the large number of potential visual concepts. They can also
instantly tell which topics are relevant for a given text document
even though these topics are chosen among thousands of semantic
concepts. This ability to quickly categorize information is an
important aspect of high level intelligence and endowing machines with
it is an important step towards artificial intelligence.
We propose in this thesis new methods to tackle classification
problems with a large number of labels, also called extreme
classification. The proposed approaches aim at reducing the inference
complexity in comparison with the classical methods (such as
one-versus-rest) in order to make learning machines usable in a real
life scenario. We propose two types of methods respectively designed
for single label and multilabel classification.
The first proposed method uses existing hierarchical information among
the categories in order to learn low dimensional binary representation
of the categories. The second type of approaches, dedicated to
multilabel problems, adapts the framework of Bloom Filters to
represent subsets of labels with sparse low dimensional binary
vectors. For both methods, binary classifiers are learned to predict
the new low dimensional representation of the categories and several
algorithms are also proposed to recover the set of relevant labels.
Large scale experiments validate the methods.
mercredi 16 juillet 2014
Rectificatif : changement d'horaire de la soutenance de thèse de Jean-Pierre Lozi (13h30 -> 14h00)
4, Place Jussieu, 75005 Paris, France (accès par métro M7 ou M10, station Jussieu).
Le passage à l'échelle des applications multi-fil sur les systèmes multi-cœur actuels est limité par la performance des algorithmes de verrou, à cause des coûts d'accès à la mémoire sous forte congestion et des défauts de cache. La contribution principale présentée dans cette thèse est un nouvel algorithme, Remote Core Locking (RCL), qui a pour objectif d'améliorer la vitesse d'exécution des sections critiques des applications patrimoniales sur les architectures multi-cœur. L'idée de RCL est de remplacer les acquisitions de verrou par des appels de fonction distants (RPC) optimisés vers un fil d'exécution matériel dédié appelé serveur. RCL réduit l'effondrement des performances observé avec d'autres algorithmes de verrou lorsque de nombreux fils d'exécution essaient d'obtenir un verrou de façon concurrente, et supprime le besoin de transférer les données partagées protégées par le verrou vers le fil d'exécution matériel qui l'acquiert car ces données peuvent souvent demeurer dans les caches du serveur.
D'autres contributions sont présentées dans cette thèse, notamment un profiler qui identifie les verrous qui sont des goulots d'étranglement dans les applications multi-fil et qui peuvent par conséquent être remplacés par RCL afin d'améliorer les performances, ainsi qu'un outil de réécriture de code développé avec l'aide de Julia Lawall. Cet outil transforme les acquisitions de verrou POSIX en acquisitions RCL. L'évaluation de RCL a porté sur dix-huit applications: les neuf applications des benchmarks SPLASH-2, les sept applications des benchmarks Phoenix 2, Memcached, ainsi que Berkeley DB avec un client TPC-C. Huit de ces applications sont incapables de passer à l'échelle à cause de leurs verrous et leur performance est améliorée par RCL sur une machine x86 avec quatre processeurs AMD Opteron et 48 fils d'exécution matériels. Utiliser RCL permet de multiplier les performances par 2.5 par rapport aux verrous POSIX sur Memcached, et par 11.6 fois sur Berkeley DB avec le client TPC-C. Sur une machine SPARC avec deux processeurs Sun Ultrasparc T2+ et 128 fils d'exécution matériels, les performances de trois applications sont améliorées par RCL: les performances sont multipliées par 1.3 par rapport aux verrous POSIX sur Memcached et par 7.9 fois sur Berkeley DB avec le client TPC-C.
mardi 8 juillet 2014
Rectificatif : changement d'horaire de la soutenance de thèse d'Amal Oudni
Toutes mes excuses pour le changement d'horaire de ma soutenance!
Ma soutenance de thèse est avancée à 14:00h,
Bonne journée,
Amal
-------- Message original --------
Objet: [Invitation] Soutenance de thèse d'Amal Oudni le mercredi 9
juillet 2014
Date: 2014-07-02 18:37
De: Amal Oudni <Amal.Oudni@lip6.fr>
À: Tout Lip6 <tout-lip6@lip6.fr>
(english version below)
Bonjour,
J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée :
"Fouille de données par extraction de motifs graduels :
contextualisation et enrichissement"
La soutenance aura lieu le : mercredi 9 juillet à 14h30,
elle se tiendra à :
Université Pierre et Marie Curie, 4 place Jussieu
75005 Paris - Salle 105, Tour 25/26.
Vous êtes également conviés au pot qui suivra dans la même salle.
http://www.upmc.fr/fr/vie_des_campus/handicap/plan_d_acces.html
=============================================================
Membres du jury :
=============================================================
Bernd Amann Professeur LIP6 - UPMC
Examinateur
Sadok Ben Yahia Professeur URPAH - Université des
Sciences de Tunis Examinateur
Anne Laurent Professeur LIRMM - Université
Montpellier 2 Rapportrice
Marie-Jeanne Lesot Maître de Conférences [HDR] LIP6 - UPMC
Directrice de thèse
Olivier Pivert Professeur ENSSAT - Université
Rennes 1 Rapporteur
Maria Rifqi Maître de Conférences [HDR] LEMMA - Université
Paris 2 Directrice de thèse
==============================================================
Résumé
==============================================================
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction
de connaissances et de la fouille de données appliquée à des bases de
données numériques ou floues afin d'extraire des résumés linguistiques
sous la forme de motifs graduels exprimant des corrélations de
co-variations
des valeurs des attributs, de la forme « plus la température augmente,
plus la pression augmente ». Notre objectif est de les contextualiser
et de les enrichir en proposant différents types de compléments
d'information afin d'augmenter leur qualité et leur apporter une
meilleure interprétation.
Nous proposons quatre formes de nouveaux motifs : nous avons
tout d'abord étudié les motifs dits « renforcés », qui effectuent,
dans le cas de données floues, une contextualisation par intégration
d'attributs complémentaires, ajoutant des clauses introduites
linguistiquement par l'expression « d'autant plus que ».
Ils peuvent être illustrés par l'exemple « plus la température diminue,
plus le volume de l'air diminue, d'autant plus que sa densité augmente
».
Ce renforcement est interprété comme validité accrue des motifs
graduels.
Nous nous sommes également intéressées à la transposition de la notion
de renforcement aux règles d'association classiques en discutant de
leurs interprétations possibles et nous montrons leur apport limité.
Nous proposons ensuite de traiter le problème des motifs graduels
contradictoires rencontré par exemple lors de l'extraction simultanée
des deux motifs « plus la température augmente, plus l'humidité augmente
»
et « plus la température augmente, plus l'humidité diminue ». Pour gérer
ces contradictions, nous proposons une définition contrainte du support
d'un motif graduel, qui, en particulier, ne dépend pas uniquement du
motif
considéré, mais aussi de ses contradicteurs potentiels. Nous proposons
également deux méthodes d'extraction, respectivement basées sur un
filtrage a posteriori et sur l'intégration de la contrainte du
nouveau support dans le processus de génération.
Nous introduisons également les motifs graduels caractérisés, définis
par l'ajout d'une clause linguistiquement introduite par l'expression
« surtout si » comme par exemple « plus la température diminue,
plus l'humidité diminue, surtout si la température varie dans [0, 10] °C
» :
la clause additionnelle précise des plages de valeurs sur lesquelles
la validité des motifs est accrue. Nous formalisons la qualité
de cet enrichissement comme un compromis entre deux contraintes
imposées à l'intervalle identifié, portant sur sa taille et sa validité,
ainsi qu'extension tenant compte de la densité des données.
Nous proposons une méthode d'extraction automatique basée sur des outils
de morphologie mathématique et la définition d'un filtre approprié
et transcription.
Nous définissons aussi les motifs graduels accélérés, qui qualifient les
corrélations entre les valeurs d'attributs et contextualisent les motifs
graduels par l'expression linguistique « rapidement », comme par exemple
« plus la température augmente, plus l'humidité augmente rapidement ».
Nous traduisons cet effet comme une contrainte de convexité que nous
modélisons comme une contrainte de covariation supplémentaire,
qui s'exprime dans le même formalisme que les contraintes d'ordre des
motifs classiques.
Nous proposons et étudions deux méthodes d'extraction, par filtrage
a posteriori et intégration dans le processus de génération.
Pour chacune des quatre contextualisation proposées, nous étudions
et formalisons la sémantique et l'interprétation souhaitées.
Nous proposons ensuite des mesures de qualité pour évaluer la validité
des motifs proposés. Nous proposons et implémentons des algorithmes
efficaces d'extraction automatique des motifs qui maximisent les
critères
de qualité proposés.
Enfin, nous réalisons une étude expérimentale, à la fois sur des données
jouets pour étudier et analyser le comportement des approches proposées,
et sur des données réelles pour montrer la pertinence des approches
et l'intérêt des motifs extraits.
Les expérimentations réalisées pour chaque approche permettent de
valider
l'apport des différentes formes de motifs proposées, ainsi que leur
interprétation associée.
--------------------- english version -----------------------
Hello,
I am pleased to invite you to my PhD defence entitled:
"Data mining based on gradual itemsets extraction: contextualization and
enrichment"
The defence will take place on:
Wednesday, July 9th at 2.30 pm,
it will be held in french at:
Université Pierre et Marie Curie, 4 place Jussieu
75005 Paris - Salle 105, Tour 25/26.
You are also invited afterwards for drinks and celebration in the same
room.
http://www.upmc.fr/fr/vie_des_campus/handicap/plan_d_acces.html
=============================================================
Jury members
=============================================================
Bernd Amann Professeur LIP6 - UPMC
Examinateur
Sadok Ben Yahia Professeur URPAH - Université
des Sciences de Tunis Examinateur
Anne Laurent Professeur LIRMM - Université
Montpellier 2 Rapportrice
Marie-Jeanne Lesot Maître de Conférences [HDR] LIP6 - UPMC
Directrice de thèse
Olivier Pivert Professeur ENSSAT - Université
Rennes 1 Rapporteur
Maria Rifqi Maître de Conférences [HDR] LEMMA - Université
Paris 2 Directrice de thèse
==============================================================
Summary
==============================================================
This thesis's works belongs to the framework of knowledge extraction
and data mining applied to numerical or fuzzy data in order to extract
linguistic summaries in the form of gradual itemsets: the latter express
correlation between attribute values of the form « the more the
temperature
increases, the more the pressure increases ». Our goal is to
contextualize
and enrich these gradual itemsets by proposing different types of
additional
information so as to increase their quality and provide a better
interpretation.
We propose four types of new itemsets: first of all, reinforced gradual
itemsets,
in the case of fuzzy data, perform a contextualization by integrating
additional
attributes linguistically introduced by the expression « all the more ».
They can be illustrated by the example « the more the temperature
decreases,
the more the volume of air decreases, all the more its density increases
».
Reinforcement is interpreted as increased validity of the gradual
itemset.
In addition, we study the extension of the concept of reinforcement to
association rules,
discussing their possible interpretations and showing their limited
contribution.
We then propose to process the contradictory itemsets that arise for
example
in the case of simultaneous extraction of « the more the temperature
increases,
the more the humidity increases » and « the more the temperature
increases,
the less the humidity decreases ». To manage these contradictions,
we define a constrained variant of the gradual itemset support, which,
in particular, does not only depend on the considered itemset, but also
on its potential
contradictors. We also propose two extraction methods: the first one
consists in filtering,
after all itemsets have been generated, and the second one integrates
the filtering process
within the generation step.
We introduce characterized gradual itemsets, defined by adding a clause
linguistically
introduced by the expression « especially if » that can be illustrated
by a sentence
such as « the more the temperature decreases, the more the humidity
decreases,
especially if the temperature varies in [0, 10] °C »: the additional
clause precise value
ranges on which the validity of the itemset is increased. We formalize
the quality of this
enrichment as a trade-off between two constraints imposed to identified
interval,
namely a high validity and a high size, as well as an extension taking
into account
the data density. We propose a method to automatically extract
characterized gradual
based on appropriate mathematical morphology tools and the definition of
an
appropriate filter and transcription.
We define also accelerated gradual itemsets that quantify the
correlations between
the attribute values and contextualize the gradual itemset through the
linguistic
expression « quickly », for example « the more the temperature
increases, the more
quickly the humidity increases ».
We propose an interpretation as convexity constraint imposed on the
relation between
the attributes composing a considered gradual itemset that we model as
an additional constraint covariation, which is expressed in the same
formalism
as constraints of classical gradual itemsets.
We propose and study two extraction methods, by filtering a posteriori
and
integrating in the generation process.
For each of the four proposed contextualizations, we study and formalize
the semantics
and desired interpretation. We then propose quality measures to evaluate
the validity of the given enriched itemset.
We also propose and implement efficient algorithms for the automatic
extraction
of itemsets that maximize the proposed quality criteria. Finally, we
carry out
experimental studies both on artificial data,
to study and analyze the behavior of the proposed approaches, and on
real data
to show the relevance of the proposed approaches and the interest of
extracted
enriched itemsets.
The experimental results for each approach allow to validate the
contribution
of the different proposed gradual itemsets and their associated
interpretation.
Amal
vendredi 4 juillet 2014
Soutenance de thèse d'Etienne Millon - 10 juillet, 14h
J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée:
Analyse de sécurité de logiciels système par typage statique
Application au noyau Linux
Mots clefs: sécurité, typage, isolation, linux, pointeurs utilisateur
Cette soutenance aura lieu *le jeudi 10 juillet 2014 à 14h*
à l'UPMC – Campus Jussieu, 4 Place Jussieu - 75005 Paris
Couloir 26-25, 1er étage, salle 105
devant le jury composé de
Rapporteurs:
Sandrine Blazy, IRISA
Pierre Jouvelot, MINES ParisTech
Examinateurs:
Gilles Muller, Université Pierre et Marie Curie
Vincent Simonet, Google
Directeurs:
Emmanuel Chailloux, Université Pierre et Marie Curie
Sarah Zennou, Airbus Group Innovations
Invité:
Olivier Levillain, ANSSI, Invité
Résumé:
Les noyaux de systèmes d'exploitation manipulent des données
fournies par les programmes utilisateur via les appels système. Si
elles sont manipulées sans prendre une attention particulière, une
faille de sécurité connue sous le nom de Confused Deputy Problem
peut amener à des fuites de données confidentielles ou l'élévation
de privilèges d'un attaquant.
Le but de cette thèse est d'utiliser des techniques de typage
statique afin de détecter les manipulations dangereuses de pointeurs
contrôlés par l'espace utilisateur.
La plupart des systèmes d'exploitation sont écrits dans le langage
C. On commence par en isoler un sous-langage sûr nommé Safespeak. Sa
sémantique opérationnelle et un premier système de types sont
décrits, et les propriétés classiques de sûreté du typage sont
établies. La manipulation des états mémoire est formalisée sous la
forme de lentilles bidirectionnelles, qui permettent d'encoder les
mises à jour partielles des états et variables. Un première analyse
sur ce langage est décrite, permettant de distinguer les entiers
utilisés comme bitmasks, qui sont une source de bugs dans les
programmes C.
On ajoute ensuite à Safespeak la notion de valeur provenant de
l'espace utilisateur. La sûreté du typage est alors brisée, mais on
peut la réétablir en donnant un type particulier aux pointeurs
contrôlés par l'espace utilisateur, ce qui force leur déférencement
à se faire de manière contrôlée. Cette technique permet de détecter
deux bugs dans le noyau Linux: le premier concerne un pilote de
carte graphique AMD, et le second l'appel système ptrace sur
l'architecture Blackfin.
Vous êtes également invités au pot qui suivra.
Bien cordialement,
--
Etienne Millon
Soutenance de thèse de Alexandru Tatar - 9 juillet 2014, 14h
J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée "Predicting User-Centric Behavior: Content Popularity and Mobility".
Elle aura lieu au Laboratoire d'Informatique de Paris 6 (LIP6) à Jussieu, le **mercredi 9 juillet 2014 à 14h00 en salle 25-26/101** et vous êtes
[invitation] Soutenance de thèse de Ruomin Wang
J'ai le plaisir de vous convier à la soutenance de ma thèse de doctorat, intitulée :
"Modélisation à haut niveau d'abstraction de l'intégrité du signal dans les bus de communication »
[Rapporteur] Luc Hébrard, Professeur des Universités (Université de Strasbourg)
[Examinatrice] Sonia Ben Dhia, Maître de conférence (HDR) des Universités (INSA de Toulouse)
[Examinateur] Marc Hélier, Professeur des Universités (Université Pierre et Marie Curie)
[Examinateur] Jacques-Olivier Klein, Professeur des Universités (Université Paris Sud)
[Encadrant] Sylvain Feruglio, Maître de conférences (Université Pierre et Marie Curie)
[Rapporteur] Luc Hébrard, Professor (Université de Strasbourg)
[Examinatrice] Sonia Ben Dhia, Associate Professor (HDR) (INSA de Toulouse)
[Examinateur] Marc Hélier, Professor (Université Pierre et Marie Curie)
[Examinateur] Jacques-Olivier Klein, Professor (Université Paris Sud)
[Encadrant] Sylvain Feruglio, Associate Professor (Université Pierre et Marie Curie)
-------------------------------------------------------------
UPMC - LIP6
Boîte courrier 167
Couloir 65-66, Étage 1, Bureau 112a
4 place Jussieu
75252 PARIS CEDEX 05
Tel: 01 44 27 75 07