Navigation :
Accueil
Communications
Enseignements
Publication
|
|
- Thèse soutenue le 5 décembre 2005 : (manuscrit .ps; .pdf);
-
- Titre de la thèse :
Sélection de variables
pour la discrimination en grande dimension
classification de données fonctionnelles
- Composition du jury :
- Jean-Jacques Daudin (INA-PG, Paris)
: examinateur
- Pascal
Massart (Université Paris-Sud Orsay)
: président
- Jean-Michel
Poggi (Université René Descartes) : directeur
de thèse;
- Nadine Ansaldi (Renault)
: invitée
Thèmes de recherche
:
- la sélection
de variables :
On dispose d'un échantillon d'apprentissage composé de n
couples de variables (Xi,Yi)
où Y est la variable réponse et X un vecteur contenant p
variables explicatives.
L'objectif principal de ses recherches consiste à identifier parmi
l'ensemble des p variables dont on dispose , le plus petit paquet
de variables capable à lui seul d'expliquer le phénomène
étudié.
Deux types de varaibles explicatives ont été considérées
: les variables réelles et fonctionnelles.
- la sélection de variables à travers CART
:
r
Ce travail a été réalisé en collaboration avec
Marie Sauvé, étudiante en thèse sous la direction de
P. Massart.
e
Soit L={(X1,Y1),...,(Xn,Yn)},
n copies indépendantes d'un couple de variables
aléatoires (X,Y) où Y est la variable réponse et
X=(X^1,...,X^p)
un vecteur de p variables explicatives réelles.
Dans le contexte des variables réelles, de nombreuses méthodes
de sélection de variables existent, notamment dans le cadre des modèles
linéaires. On peut, par exemple, citer la "Subset Selection", Lasso
ou encore LARS qui sont des méthodes exhaustives ou pénalisées
qui font intervenir le critère des moindres carrés.
Pour notre part, nous privilégionsCART et une méthode pénalisée
en recourant à une approche séletion de modèle par minimisation
d'un contraste empirique pénalisé. Voici succintememt une description
de la procédure.
Soit G={X^1,...,X^p}.
Pour tout sous-ensemble M de G, on construit l'arbre
CART maximal T{max,M}
en ne faisant intervenir dans les divisions de l'arbre que les variables
du paquet M. Ensuite, pour tout sous-arbre T de T{max,M},
on considère le modèle S{M,T}
constitué des fonctions constantes par morceaux
sur la partition induite par T. Pour finir, on procède
à la sélection de modèle dans la collection {S{M,T}, M
dans P(G), T sous-arbre de T{max,M}},
en minimisant un contraste empirique pénalisé.
Dans un premier temps, nous avons déterminé la fonction de
pénalité à mettre en œuvre de manière à
valider cette procédure. Dans un second temps, nous nous sommes
intéressées à l'application de cette procédure.
- l'objectivation de l'agrément de conduite :
r
Ce travail a été mené
en partenariat avec la Direction de la Recherche de Renault.
u
L'industire automobile, comnme par exemple
Renault, souhaite satisfaire sa clientèle. Dans ce but, des sondages
sont réalisés afin de déterminer les prestations à
améliorer. Une fois ces dernières identifiées, il s'agit
de les quantifier ou objectiver afin de pouvoir intégrer les résultats
dans un cahier des charges relatif à la conception du véhicule.
Concrètement, cela signifie qu'il faut déterminer des critères
véhicule, encore appelés critères "physiques", responsables
de la satisfaction du conducteur (ou agrément de conduite) liée
à la prestation évaluée.
L'étude qui nous occupe est relative à la boîte de vitesses
et au confort ressenti par le conducteur lors de la mise en mouvement du
véhicule.
Afin de pouvoir mener à bien cette étude, une campagne d'essais
a été réalisée sur un véhicule instrumenté.
Celle-ci a requis plusieurs pilotes et différentes conditions de roulage
afin de traduire diverses situations (route, autoroute,...) et façon
de conduire (brusque, douce,...). De même, elle a impliqué différents
réglages de la boîte de vitesses. A l'issu de chacun des essais,
menés par paire, la satisfaction pilote était relevée
ainsi que de nombreux signaux "physiques" (accélération, couple,...).
Après l'élimination des essais associés à des
mesures erronées et le traitement de la réponse pilote, les
données d'étude, qui nous ont été fournies, sont
les suivantes :
- Xi = (Xi,1,...,Xi,21)
avec Xi,j = Xi,j(t)
la j ème variable fonctionnelle mesurée lors de l'essai i
- Yi = le rang
attribué au produit testé au cours de l'essai i
Afin de déterminer les signaux pertinents, ainsi que la plage temporelle
responsable de cette pertinence, la démarche mise en place s'articule
en trois grandes phases : une étape de prétraitements (synchronisation,
débruitage par ondelettes) pour rendre les signaux "homogènes",
une étape de compression par ondelettes afin de réduire le fléau
de la dimension et pour finir une étape de sélection en cinq
points qui mêle CART, l'importance des variables et une stratégie
pas à pas.
- La classification de données
fonctionnelle
La classification binaire consiste à déterminer, au moyen de
données L={(Xi,Yi),
1<i<n} où (Xi,Yi)
est dans X*{0;1}, une fonction
appelée classifieur qui permet d'associer à chaque observation
de X une réponse dans {0;1}.
Une méthode classique et usuelle pour déterminer des classifieurs
consiste à utiliser la méthode des k-plus proches voisins.
Cette méthode a largement été étudiée
dans le cas des données multivariées, autrement dit lorsque
X=R^d.
Cependant,
aujourd'hui de nombreuses applications font appel à des données
de type fonctionnel auxquelles on souhaite pouvoir appliquer la méthode
des k-plus proches voisins.
- les k-plus proches voisins pour
des données fonctionnelles :
r
Ce travail
est le fruit d'une collaboration avec Magalie Fromont, maître de conférence
à l'université Rennes2.
r
On dispose
d'un échantillon L={(X1,Y1),...,(Xn,Yn)}
tel que les observations Xi appartiennent
à un espace fonctionnel X supposé séparable.
Notre travail repose sur
l'approche développée par Biau,Bunea et Wegkamp (2005). Il
s'agit de projeter ces données dans une base de X et, pour d entier naturel non nul,
à considérer les variables explicatives Xi,d
qui sont les d premiers coefficients de la projection de la variable
Xi.
Par ce biais, nous nous ramenons au cadre
multivarié, dans lequel il est alors envisageable de procéder
à une classification par la règle des k-plus proches voisins
aui doit intégrer la sélection simultannée de la dimension
d de l'espace de projection et du nombre de voisins
k. Afin de procéder à cette double phase de sélection
Biau et al. ont proposé de pénaliser la procédure des
k-plus proches voisins par un terme en log(d)/m où m est le nombre
d'observations utilisées lors de la phase de validation de la procédure
des k-plus proches voisins.
Nous avons, pour notre part, montré que considérer une version
non pénalisée ou légèrement pénalisée
est efficace dans la théorie, mais que l'introduction d'un léger
terme de pénalité permet de stabiliser la procédure.
En outre, un travail sur données réelles et simulées
permet de donner un ordre de grandeur de la pénalisation à
mettre en œuvre.
-
Travail
en connexion avec les neurosciences au travers une collaboration avec
Patricia Reynaud-Bouret, Yann Bouret et Franck Grammont.
L'objectif de ce travail est d'essayer d'identifier les neuronnes qui
interagissent localement entre eux, lors d'une tâche
sensorimotrice donnée et si possible d'établir une
cartographie de l'interaction entre neuronnes au cours du temps. Pour
cela, nous disposons de données enregistrées sur des
singes. Différentes problématiques se posent comme la
modélisation sous jacente de l'activité neuronale ou
encore le faible nombre de données. En ce qui concerne la
modélisation, nous nous orientons vers les processus de Hawkes.
De plus amples détails sur ce projet sont disponibles ici.
- Travail
en collaboration avec Patricai Reynaud-Bouret et Gérard Biau sur
une meilleure compréhension de l'algorithme CART. En effet, si
théoriquement cet algorithme est compris en ce qui concerne ses
deux dernières étapes depuis les travaux de Gey d'une
part et de Tuleau d'autre part, ces résultats sont tous obtenus
conditionnellement à la première phase, à savoir
la construction d'un arbre maximal. L'idée est ici de
comprendre, d'un point de vue théorique, la totalité de
l'algorithme.
- Travail
avec des médecins, soit de l'hôpital l'Archet, soit de
l'INSERM de Nice sur des thématiques appliquées.
|