Navigation :
Accueil
Communications
Enseignements
Publication
|
|
- Thèse soutenue le 5 décembre 2005 : (manuscrit .ps; .pdf);
-
- Titre de la thèse :
Sélection de variables
pour la discrimination en grande dimension
classification de données fonctionnelles
- Composition du jury :
- Jean-Jacques Daudin (INA-PG, Paris)
: examinateur
- Pascal
Massart (Université Paris-Sud Orsay)
: président
- Jean-Michel
Poggi (Université René Descartes) : directeur
de thèse;
- Nadine Ansaldi (Renault)
: invitée
Thèmes de recherche
:
- données neurobiologiques :
Dans ce volet de mes recherches, l'objectif
est, conjointement avec des statisticiens et des neurobiologistes, de
travailler sur ces données complexes afin de pouvoir montrer,
à l'aide de procédures statistiques validées
théoriquement, des évidences biologiques ou du moins de
procéder à des avancées dans la
compréhension de l'activité neuronale.
- Travail en collaboration avec Patricia Reynaud-Bouret et Franck Grammont :
Un des objetifs en neuroscience est d'arriver
à une meilleure compréhension de la dynamique de
l'activité cérébrale. Il est reconnu, dans la
communauté des neurobiologistes que le vecteur principal
d'information est le potentiel d'action, encore appelé spike.
Par ailleurs, depuis plusieurs années, il est également
admis que les neurones évoluent sous forme d'assemblée
neuronale et non indépendamment les uns des autres comme cela a
été pensé pendant longtemps.
Un certain nombre de techniques, à l'image des Unitary Events
(méthode développée entre autre par Grün),
ont été proposées afin de mettre en évidence
des phénomènes de type synchronisation des spikes. Notre
idée est ici d'étudier des paires de neurones, de
proposer une modélisation mathématique afin de pouvoir
développer une méthode statistique, largement
inspirée des UE, permettant de détecter les
dépendances locales existantes entre deux neurones.
Pour cela, on dispose de l'enregistrement simultané du train de
spikes de deux neurones, ceci répété M fois.
Autement dit on dispose de {(N_i^(1), N_i^(2)}_{1<=i<=M},
où N_i^(j) représente le train de spikes, à savoir
les temps d'occurence des spikes, pour le neurone j et l'enregistrement
i.
Une modélisation mathématique évidente est le
processus ponctuel, et plus précisément pour le moment le
processus de Poisson homogène dans l'étude qui nous
occupe. A partir de cette hypothèse, on s'intéresse au
nombre de coïncidences avec délai d, à savoir le
nombre de couples (x,y) satisfaisant, pour l'enregistrement i :
1) x est un point de N_1^(i),
2) y est un point de N_2^(i),
3) |x-y|<d
A partir de ce nombre de coïncidences, nous avons établi
une statistique de test permettant de tester localement
l'indépendance de N_1 et N_2.
Si pour le travail théorique, nous ne sommes pas en mesure de
nous affranchir de l'hypothèse de Poisson homogène, un
travail sur simulation tend à montrer une certaine robustesse
vis à vis du modèle.
-
- Travail en collaboration avec Patricia Reynaud-Bouret, Vincent Rivoirard et Franck Grammont
Comme nous avons pu le voir
précédemment, afin de parvenir à une étude
statistique pertinente, un certain nombre d'hypothèse doivent
être faites quant à l'aspect modélisation.
Cependant, pour le moment, rien ne permet réellement
étayer ces hypothèses. L'objectif est ici de proposer des
procédures statistiques permettant d'estimer et tester
différents modèles. Les modèles
considérés sont le processus de Poisson homogène,
le processus de Poisson inhomogène et le processus de Hawkes.
Ces modèles ont été évoqués et pour
certains utilisés dans le domaine des neurosicences.
L'idée est ici donc de fourrnir des outils permettant de
justifier de leur utlisation mais aussi de donner les moyens de les
utiliser en pratique. Une attention toute particulière est
apportée au plug-in qui est une technique largement
utilsée lorsque l'on est en présence de paramètres
inconnus, mais qui peut conduire à des résultats
erronés s'il l'on ne pas prend pas garde.
- Travail en collaboration avec Patricia Reynaud-Bouret et Franck Picard
Au cours des travaux menés avec Patricia Reynaud-Bouret et
Franck Grammont, un certain nombre de difficultés sont apparues,
comme le fait de supposer que les processus étaient
homogènes. L'idée est ici de
réfléchir à une méthode permettant de
procéder à la segmentation des enregistrements neuronaux
afin de permettre d'identifier des plages temporelles (potentiellement
propres à chaque enregistrement mais commune à la
paire de neurones considérée) sur lesquelles nous
pourrions considérer que l'activité neuronale est
"similaire". L'idée serait de pouvoir utiliser des
méthodes de programations dynamiques couplées à de
outils statistiques (par exemple de type Lasso) permettant ainsi de procéder
simultanément à la segmention mais aussi à
l'estimation des fonctions d'intérêt que sont par exemple
dans le modèle de Hawkes (modèle de notre étude)
les fonctions d'intéraction.
- l'algorirhme CART :
L'algorithme CART est en alogorithme
développé, il y a une trentaine d'années, par
Breiman et al.. Si cet algortithme est très utilisé en
pratique et si de nombreuses extensions en ont été
proposées, à l'image des forêts aléatoires,
il n'en demeure pas moins que cet outil n'est, à ce jour,
toujours pas entièrement validé théoriquement. De
nombreuses avancées théoriques ont été
opérées, entre autre par S. Gey et G. Biau, cependant,
ces justifications théoriques sont toutes conditionnellement
à la construction de l'arbre maximal.
- Travail en collaboration avec Patricia Reynaud-Bouret et Gérard Biau
L'objectif de cette collaboration est d'essayer
de justifier, du moins en partie, la première étape de
l'algorithme CART, à savoir la construction de l'arbre maximal,
étape qui sert de socle à toute la suite. L'approche
entreprise est, à l'iamge de ce qui se fait dans de nombreux
cas, d'essayer de justifier cette construction dans un cadre un petit
peu plus simple. Des premiers résultats, obtenus dans le cas
uni-dimensionnel, tendent à montrer que cette étape
semble répondre à la problémarique posée,
mais il reste encore de nombreux points à considérer
comme le passage au cadre multi-dimensionnel.
- la sélection
de variables :
On dispose d'un échantillon d'apprentissage composé de n
couples de variables (Xi,Yi)
où Y est la variable réponse et X un vecteur contenant p
variables explicatives.
L'objectif principal de ses recherches consiste à identifier parmi
l'ensemble des p variables dont on dispose , le plus petit paquet
de variables capable à lui seul d'expliquer le phénomène
étudié.
Deux types de varaibles explicatives ont été considérées
: les variables réelles et fonctionnelles.
- la sélection de variable à l'aide des forêts aléatoires
Ce travail est mené en collaboration avec Jean-Michel Poggi et Robin Genuer.
Dans les travaux entrepris, nous avons étudiés d'une part
les forêts aléatoires, et notamment leur
sensibilité quant à deux des paramètres
intervenant dans leur construction même puisque, à ce
jour, aucune calibration de ces derniers n'ont été
proposé. Et surtout, nous voulions regarder l'incidence que cela
pouvait avoir sur l'importance des variables qui découle d'une
forêt.
D'autre part, nous avons proposé une méthode de
sélection de variables au moyen des forêts
aléatoires, en tenant compte de la double attente que l'on peut
avoir en terme de sélection de variables (prédiction ou
interprétation). L'avantage de cette méthode par rapport
à d'autre est qu'elle est entièrement guidée par
les données, sans aucun paramètre à calibrer.
Nous avons actuellement entrepris la création d'un package
associé (VSURF) ainsi que la rédaction d"un article
détaillant et illustrant la méthode.
- la sélection de variables à travers CART
:
Ce travail a été réalisé en collaboration avec
Marie Sauvé, étudiante en thèse sous la direction de
P. Massart.
Soit L={(X1,Y1),...,(Xn,Yn)},
n copies indépendantes d'un couple de variables
aléatoires (X,Y) où Y est la variable réponse et
X=(X^1,...,X^p)
un vecteur de p variables explicatives réelles.
Dans le contexte des variables réelles, de nombreuses méthodes
de sélection de variables existent, notamment dans le cadre des modèles
linéaires. On peut, par exemple, citer la "Subset Selection", Lasso
ou encore LARS qui sont des méthodes exhaustives ou pénalisées
qui font intervenir le critère des moindres carrés.
Pour notre part, nous privilégionsCART et une méthode pénalisée
en recourant à une approche séletion de modèle par minimisation
d'un contraste empirique pénalisé. Voici succintememt une description
de la procédure.
Soit G={X^1,...,X^p}.
Pour tout sous-ensemble M de G, on construit l'arbre
CART maximal T{max,M}
en ne faisant intervenir dans les divisions de l'arbre que les variables
du paquet M. Ensuite, pour tout sous-arbre T de T{max,M},
on considère le modèle S{M,T}
constitué des fonctions constantes par morceaux
sur la partition induite par T. Pour finir, on procède
à la sélection de modèle dans la collection {S{M,T}, M
dans P(G), T sous-arbre de T{max,M}},
en minimisant un contraste empirique pénalisé.
Dans un premier temps, nous avons déterminé la fonction de
pénalité à mettre en œuvre de manière à
valider cette procédure. Dans un second temps, nous nous sommes
intéressées à l'application de cette procédure.
- l'objectivation de l'agrément de conduite :
Ce travail a été mené
en partenariat avec la Direction de la Recherche de Renault.
L'industire automobile, comnme par exemple
Renault, souhaite satisfaire sa clientèle. Dans ce but, des sondages
sont réalisés afin de déterminer les prestations à
améliorer. Une fois ces dernières identifiées, il s'agit
de les quantifier ou objectiver afin de pouvoir intégrer les résultats
dans un cahier des charges relatif à la conception du véhicule.
Concrètement, cela signifie qu'il faut déterminer des critères
véhicule, encore appelés critères "physiques", responsables
de la satisfaction du conducteur (ou agrément de conduite) liée
à la prestation évaluée.
L'étude qui nous occupe est relative à la boîte de vitesses
et au confort ressenti par le conducteur lors de la mise en mouvement du
véhicule.
Afin de pouvoir mener à bien cette étude, une campagne d'essais
a été réalisée sur un véhicule instrumenté.
Celle-ci a requis plusieurs pilotes et différentes conditions de roulage
afin de traduire diverses situations (route, autoroute,...) et façon
de conduire (brusque, douce,...). De même, elle a impliqué différents
réglages de la boîte de vitesses. A l'issu de chacun des essais,
menés par paire, la satisfaction pilote était relevée
ainsi que de nombreux signaux "physiques" (accélération, couple,...).
Après l'élimination des essais associés à des
mesures erronées et le traitement de la réponse pilote, les
données d'étude, qui nous ont été fournies, sont
les suivantes :
- Xi = (Xi,1,...,Xi,21)
avec Xi,j = Xi,j(t)
la j ème variable fonctionnelle mesurée lors de l'essai i
- Yi = le rang
attribué au produit testé au cours de l'essai i
Afin de déterminer les signaux pertinents, ainsi que la plage temporelle
responsable de cette pertinence, la démarche mise en place s'articule
en trois grandes phases : une étape de prétraitements (synchronisation,
débruitage par ondelettes) pour rendre les signaux "homogènes",
une étape de compression par ondelettes afin de réduire le fléau
de la dimension et pour finir une étape de sélection en cinq
points qui mêle CART, l'importance des variables et une stratégie
pas à pas.
- La classification de données
fonctionnelle
La classification binaire consiste à déterminer, au moyen de
données L={(Xi,Yi),
1<i<n} où (Xi,Yi)
est dans X*{0;1}, une fonction
appelée classifieur qui permet d'associer à chaque observation
de X une réponse dans {0;1}.
Une méthode classique et usuelle pour déterminer des classifieurs
consiste à utiliser la méthode des k-plus proches voisins.
Cette méthode a largement été étudiée
dans le cas des données multivariées, autrement dit lorsque
X=R^d.
Cependant,
aujourd'hui de nombreuses applications font appel à des données
de type fonctionnel auxquelles on souhaite pouvoir appliquer la méthode
des k-plus proches voisins.
- les k-plus proches voisins pour
des données fonctionnelles :
Ce travail
est le fruit d'une collaboration avec Magalie Fromont, maître de conférence
à l'université Rennes2.
On dispose
d'un échantillon L={(X1,Y1),...,(Xn,Yn)}
tel que les observations Xi appartiennent
à un espace fonctionnel X supposé séparable.
Notre travail repose sur
l'approche développée par Biau,Bunea et Wegkamp (2005). Il
s'agit de projeter ces données dans une base de X et, pour d entier naturel non nul,
à considérer les variables explicatives Xi,d
qui sont les d premiers coefficients de la projection de la variable
Xi.
Par ce biais, nous nous ramenons au cadre
multivarié, dans lequel il est alors envisageable de procéder
à une classification par la règle des k-plus proches voisins
aui doit intégrer la sélection simultannée de la dimension
d de l'espace de projection et du nombre de voisins
k. Afin de procéder à cette double phase de sélection
Biau et al. ont proposé de pénaliser la procédure des
k-plus proches voisins par un terme en log(d)/m où m est le nombre
d'observations utilisées lors de la phase de validation de la procédure
des k-plus proches voisins.
Nous avons, pour notre part, montré que considérer une version
non pénalisée ou légèrement pénalisée
est efficace dans la théorie, mais que l'introduction d'un léger
terme de pénalité permet de stabiliser la procédure.
En outre, un travail sur données réelles et simulées
permet de donner un ordre de grandeur de la pénalisation à
mettre en œuvre.
- Travail
avec des sismoloques d'EDF afin de tester des modèles servant
à estimer le couple (profondeur/magnitude) d'un séisme.
- Poursuite du travail initié avec Patricia Reynaud-Bouert et Franck
Grammont avec si possible une généralisation au cadre de
p neurones, p>2.
- Poursuite des différents travaux en cours.
|