liste-publi

Recherche

Navigation :

Accueil

Communications

Enseignements

Publication

Thèse soutenue le 5 décembre 2005 : (manuscrit .ps; .pdf);

Titre de la thèse :
Sélection de variables pour la discrimination en grande dimension
classification de données fonctionnelles
Composition du jury :

Philippe Besse (Université Paul Sabatier) : rapporteur

Gérard Biau (Université Montpellier II) : rapporteur

Jean-Jacques Daudin (INA-PG, Paris) : examinateur

Pascal Massart (Université Paris-Sud Orsay) : président
Jean-Michel Poggi (Université René Descartes) : directeur de thèse;
Nadine Ansaldi (Renault) : invitée

Thèmes de recherche :

données neurobiologiques :
Dans ce volet de mes recherches, l'objectif est, conjointement avec des statisticiens et des neurobiologistes, de travailler sur ces données complexes afin de pouvoir montrer, à l'aide de procédures statistiques validées théoriquement, des évidences biologiques ou du moins de procéder à des avancées dans la compréhension de l'activité neuronale.
l'algorirhme CART :
L'algorithme CART est en alogorithme développé, il y a une trentaine d'années, par Breiman et al.. Si cet algortithme est très utilisé en pratique et si de nombreuses extensions en ont été proposées, à l'image des forêts aléatoires, il n'en demeure pas moins que cet outil n'est, à ce jour, toujours pas entièrement validé théoriquement. De nombreuses avancées théoriques ont été opérées, entre autre par S. Gey et G. Biau, cependant, ces justifications théoriques sont toutes conditionnellement à la construction de l'arbre maximal.
- Travail en collaboration avec Patricia Reynaud-Bouret et Gérard Biau
  L'objectif de cette collaboration est d'essayer de justifier, du moins en partie, la première étape de l'algorithme CART, à savoir la construction de l'arbre maximal, étape qui sert de socle à toute la suite. L'approche entreprise est, à l'iamge de ce qui se fait dans de nombreux cas, d'essayer de justifier cette construction dans un cadre un petit peu plus simple. Des premiers résultats, obtenus dans le cas uni-dimensionnel, tendent à montrer que cette étape semble répondre à la problémarique posée, mais il reste encore de nombreux points à considérer comme le passage au cadre multi-dimensionnel.
la sélection de variables :
On dispose d'un échantillon d'apprentissage composé de n couples de variables (Xi,Yi) où Y est la variable réponse et X un vecteur contenant p variables explicatives.
L'objectif principal de ses recherches consiste à identifier parmi l'ensemble des p variables dont on dispose , le plus petit paquet de variables capable à lui seul d'expliquer le phénomène étudié.
Deux types de varaibles explicatives ont été considérées : les variables réelles et fonctionnelles.

la sélection de variable à l'aide des forêts aléatoires
Ce travail est mené en collaboration avec Jean-Michel Poggi et Robin Genuer.
Dans les travaux entrepris, nous avons étudiés d'une part les forêts aléatoires, et notamment leur sensibilité quant à deux des paramètres intervenant dans leur construction même puisque, à ce jour, aucune calibration de ces derniers n'ont été proposé. Et surtout, nous voulions regarder l'incidence que cela pouvait avoir sur l'importance des variables qui découle d'une forêt.
D'autre part, nous avons proposé une méthode de sélection de variables au moyen des forêts aléatoires, en tenant compte de la double attente que l'on peut avoir en terme de sélection de variables (prédiction ou interprétation). L'avantage de cette méthode par rapport à d'autre est qu'elle est entièrement guidée par les données, sans aucun paramètre à calibrer. Nous avons actuellement entrepris la création d'un package associé (VSURF) ainsi que la rédaction d"un article détaillant et illustrant la méthode.

la sélection de variables à travers CART :
Ce travail a été réalisé en collaboration avec Marie Sauvé, étudiante en thèse sous la direction de P. Massart.
Soit L={(X1,Y1),...,(Xn,Yn)}, n copies indépendantes d'un couple de variables aléatoires (X,Y) où Y est la variable réponse etX=(X^1,...,X^p)un vecteur de p variables explicatives réelles.
Dans le contexte des variables réelles, de nombreuses méthodes de sélection de variables existent, notamment dans le cadre des modèles linéaires. On peut, par exemple, citer la "Subset Selection", Lasso ou encore LARS qui sont des méthodes exhaustives ou pénalisées qui font intervenir le critère des moindres carrés.
Pour notre part, nous privilégionsCART et une méthode pénalisée en recourant à une approche séletion de modèle par minimisation d'un contraste empirique pénalisé. Voici succintememt une description de la procédure.
Soit G={X^1,...,X^p}. Pour tout sous-ensemble M de G, on construit l'arbre CART maximal T{max,M} en ne faisant intervenir dans les divisions de l'arbre que les variables du paquet M. Ensuite, pour tout sous-arbre T de T{max,M}, on considère le modèle S{M,T}constitué des fonctions constantes par morceaux sur la partition induite par T. Pour finir, on procède à la sélection de modèle dans la collection {S{M,T}, M dans P(G), T sous-arbre de T{max,M}}, en minimisant un contraste empirique pénalisé.
Dans un premier temps, nous avons déterminé la fonction de pénalité à mettre en œuvre de manière à valider cette procédure. Dans un second temps, nous nous sommes intéressées à l'application de cette procédure.

l'objectivation de l'agrément de conduite :
Ce travail a été mené en partenariat avec la Direction de la Recherche de Renault.
L'industire automobile, comnme par exemple Renault, souhaite satisfaire sa clientèle. Dans ce but, des sondages sont réalisés afin de déterminer les prestations à améliorer. Une fois ces dernières identifiées, il s'agit de les quantifier ou objectiver afin de pouvoir intégrer les résultats dans un cahier des charges relatif à la conception du véhicule.
Concrètement, cela signifie qu'il faut déterminer des critères véhicule, encore appelés critères "physiques", responsables de la satisfaction du conducteur (ou agrément de conduite) liée à la prestation évaluée.
L'étude qui nous occupe est relative à la boîte de vitesses et au confort ressenti par le conducteur lors de la mise en mouvement du véhicule.
Afin de pouvoir mener à bien cette étude, une campagne d'essais a été réalisée sur un véhicule instrumenté. Celle-ci a requis plusieurs pilotes et différentes conditions de roulage afin de traduire diverses situations (route, autoroute,...) et façon de conduire (brusque, douce,...). De même, elle a impliqué différents réglages de la boîte de vitesses. A l'issu de chacun des essais, menés par paire, la satisfaction pilote était relevée ainsi que de nombreux signaux "physiques" (accélération, couple,...).
Après l'élimination des essais associés à des mesures erronées et le traitement de la réponse pilote, les données d'étude, qui nous ont été fournies, sont les suivantes :

- Xi = (Xi,1,...,Xi,21) avec Xi,j = Xi,j(t) la j ème variable fonctionnelle mesurée lors de l'essai i
- Yi = le rang attribué au produit testé au cours de l'essai i

Afin de déterminer les signaux pertinents, ainsi que la plage temporelle responsable de cette pertinence, la démarche mise en place s'articule en trois grandes phases : une étape de prétraitements (synchronisation, débruitage par ondelettes) pour rendre les signaux "homogènes", une étape de compression par ondelettes afin de réduire le fléau de la dimension et pour finir une étape de sélection en cinq points qui mêle CART, l'importance des variables et une stratégie pas à pas.

La classification de données fonctionnelle
La classification binaire consiste à déterminer, au moyen de données L={(Xi,Yi), 1<i<n} où (Xi,Yi) est dans X*{0;1}, une fonction appelée classifieur qui permet d'associer à chaque observation de X une réponse dans {0;1}.
Une méthode classique et usuelle pour déterminer des classifieurs consiste à utiliser la méthode des k-plus proches voisins. Cette méthode a largement été étudiée dans le cas des données multivariées, autrement dit lorsque X=R^d.
Cependant, aujourd'hui de nombreuses applications font appel à des données de type fonctionnel auxquelles on souhaite pouvoir appliquer la méthode des k-plus proches voisins.

les k-plus proches voisins pour des données fonctionnelles :
Ce travail est le fruit d'une collaboration avec Magalie Fromont, maître de conférence à l'université Rennes2.
On dispose d'un échantillon L={(X1,Y1),...,(Xn,Yn)} tel que les observations Xi appartiennent à un espace fonctionnel X supposé séparable.
Notre travail repose sur l'approche développée par Biau,Bunea et Wegkamp (2005). Il s'agit de projeter ces données dans une base de X et, pour d entier naturel non nul, à considérer les variables explicatives Xi,d qui sont les d premiers coefficients de la projection de la variable Xi.
Par ce biais, nous nous ramenons au cadre multivarié, dans lequel il est alors envisageable de procéder à une classification par la règle des k-plus proches voisins aui doit intégrer la sélection simultannée de la dimension d de l'espace de projection et du nombre de voisinsk. Afin de procéder à cette double phase de sélection Biau et al. ont proposé de pénaliser la procédure des k-plus proches voisins par un terme en log(d)/m où m est le nombre d'observations utilisées lors de la phase de validation de la procédure des k-plus proches voisins.
Nous avons, pour notre part, montré que considérer une version non pénalisée ou légèrement pénalisée est efficace dans la théorie, mais que l'introduction d'un léger terme de pénalité permet de stabiliser la procédure. En outre, un travail sur données réelles et simulées permet de donner un ordre de grandeur de la pénalisation à mettre en œuvre.

Projet de recherche

Travail avec des sismoloques d'EDF afin de tester des modèles servant à estimer le couple (profondeur/magnitude) d'un séisme.
Poursuite du travail initié avec Patricia Reynaud-Bouert et Franck Grammont avec si possible une généralisation au cadre de p neurones, p>2.
Poursuite des différents travaux en cours.