Recherche


 Navigation :

Accueil

Communications

Enseignements


Publication




Thèse soutenue le 5 décembre 2005 : (manuscrit .ps; .pdf);
  • Titre de la thèse :
                       Sélection de variables pour la discrimination en grande dimension
                                        classification de données fonctionnelles

  • Composition du jury :
    • Philippe Besse (Université Paul Sabatier)             : rapporteur
    • Gérard Biau (Université Montpellier II)                : rapporteur
    • Jean-Jacques Daudin (INA-PG, Paris)                : examinateur
    • Pascal Massart (Université Paris-Sud Orsay)       : président
    • Jean-Michel Poggi (Université René Descartes)   : directeur de thèse;
    • Nadine Ansaldi (Renault)                                    : invitée


 

        Thèmes de  recherche :
    • données neurobiologiques :
      Dans ce volet de mes recherches, l'objectif est, conjointement avec des statisticiens et des neurobiologistes, de travailler sur ces données complexes afin de pouvoir montrer, à l'aide de procédures statistiques validées théoriquement, des évidences biologiques ou du moins de procéder à des avancées dans la compréhension de l'activité neuronale.
        • Travail en collaboration avec Patricia Reynaud-Bouret et Franck Grammont :
          Un des objetifs en neuroscience est d'arriver à une meilleure compréhension de la dynamique de l'activité cérébrale. Il est reconnu, dans la communauté des neurobiologistes que le vecteur principal d'information est le potentiel d'action, encore appelé spike. Par ailleurs, depuis plusieurs années, il est également admis que les neurones évoluent sous forme d'assemblée neuronale et non indépendamment les uns des autres comme cela a été pensé pendant longtemps.
          Un certain nombre de techniques, à l'image des Unitary Events (méthode développée entre autre par Grün), ont été proposées afin de mettre en évidence des phénomènes de type synchronisation des spikes. Notre idée est ici d'étudier des paires de neurones, de proposer une modélisation mathématique afin de pouvoir développer une méthode statistique, largement inspirée des UE, permettant de détecter les dépendances locales existantes entre deux neurones.
          Pour cela, on dispose de l'enregistrement simultané du train de spikes de deux neurones, ceci répété M fois. Autement dit on dispose de {(N_i^(1), N_i^(2)}_{1<=i<=M}, où N_i^(j) représente le train de spikes, à savoir les temps d'occurence des spikes, pour le neurone j et l'enregistrement i.
          Une modélisation mathématique évidente est le processus ponctuel, et plus précisément pour le moment le processus de Poisson homogène dans l'étude qui nous occupe. A partir de cette hypothèse, on s'intéresse au nombre de coïncidences avec délai d, à savoir le nombre de couples (x,y) satisfaisant, pour l'enregistrement i :
                  1) x est un point de N_1^(i),         2) y est un point de N_2^(i),          3) |x-y|<d
          A partir de ce nombre de coïncidences, nous avons établi une statistique de test permettant de tester localement l'indépendance de N_1 et N_2. 
          Si pour le travail théorique, nous ne sommes pas en mesure de nous affranchir de l'hypothèse de Poisson homogène, un travail sur simulation tend à montrer une certaine robustesse vis à vis du modèle.

        • Travail en collaboration avec Patricia Reynaud-Bouret, Vincent Rivoirard et Franck Grammont
          Comme nous avons pu le voir précédemment, afin de parvenir à une étude statistique pertinente, un certain nombre d'hypothèse doivent être faites quant à l'aspect modélisation. Cependant, pour le moment, rien ne permet réellement étayer ces hypothèses. L'objectif est ici de proposer des procédures statistiques permettant d'estimer et tester différents modèles. Les modèles considérés sont le processus de Poisson homogène, le processus de Poisson inhomogène et le processus de Hawkes. Ces modèles ont été évoqués et pour certains utilisés dans le domaine des neurosicences. L'idée est ici donc de fourrnir des outils permettant de justifier de leur utlisation mais aussi de donner les moyens de les utiliser en pratique. Une attention toute particulière est apportée au plug-in qui est une technique largement utilsée lorsque l'on est en présence de paramètres inconnus, mais qui peut conduire à des résultats erronés s'il l'on ne pas prend pas garde.

        • Travail en collaboration avec Patricia Reynaud-Bouret et Franck Picard
          Au cours des travaux menés avec Patricia Reynaud-Bouret et Franck Grammont, un certain nombre de difficultés sont apparues, comme le fait de supposer que les processus étaient homogènes.  L'idée est ici de réfléchir à une méthode permettant de procéder à la segmentation des enregistrements neuronaux afin de permettre d'identifier des plages temporelles (potentiellement propres à chaque enregistrement mais commune à la paire de neurones considérée) sur lesquelles nous pourrions considérer que l'activité neuronale est "similaire". L'idée serait de pouvoir utiliser des méthodes de programations dynamiques couplées à de outils statistiques (par exemple de type Lasso) permettant ainsi de procéder simultanément à la segmention mais aussi à l'estimation des fonctions d'intérêt que sont par exemple dans le modèle de Hawkes (modèle de notre étude) les fonctions d'intéraction.


    • l'algorirhme CART :
      L'algorithme CART est en alogorithme développé, il y a une trentaine d'années, par Breiman et al.. Si cet algortithme est très utilisé en pratique et si de nombreuses extensions en ont été proposées, à l'image des forêts aléatoires, il n'en demeure pas moins que cet outil n'est, à ce jour, toujours pas entièrement validé théoriquement. De nombreuses avancées théoriques ont été opérées, entre autre par S. Gey et G. Biau, cependant, ces justifications théoriques sont toutes conditionnellement à la construction de l'arbre maximal.

      • Travail en collaboration avec Patricia Reynaud-Bouret et Gérard Biau
        L'objectif de cette collaboration est d'essayer de justifier, du moins en partie, la première étape de l'algorithme CART, à savoir la construction de l'arbre maximal, étape qui sert de socle à toute la suite. L'approche entreprise est, à l'iamge de ce qui se fait dans de nombreux cas, d'essayer de justifier cette construction dans un cadre un petit peu plus simple. Des premiers résultats, obtenus dans le cas uni-dimensionnel, tendent à montrer que cette étape semble répondre à la problémarique posée, mais il reste encore de nombreux points à considérer comme le passage au cadre multi-dimensionnel.

    • la sélection de variables :
      On dispose d'un échantillon d'apprentissage composé de n couples de variables (Xi,Yi) où Y est la variable réponse et X un vecteur contenant p variables explicatives.
      L'objectif principal de ses recherches consiste à identifier parmi l'ensemble des p variables dont on dispose , le plus petit paquet de variables capable à lui seul d'expliquer le phénomène étudié.
      Deux types de varaibles explicatives ont été considérées : les variables réelles et fonctionnelles.
      • la sélection de variable à l'aide des forêts aléatoires
        Ce travail est mené en collaboration avec Jean-Michel Poggi et Robin Genuer. 
        Dans les travaux entrepris, nous avons étudiés d'une part les forêts aléatoires, et notamment leur sensibilité quant à deux des paramètres intervenant dans leur construction même puisque, à ce jour, aucune calibration de ces derniers n'ont été proposé. Et surtout, nous voulions regarder l'incidence que cela pouvait avoir sur l'importance des variables qui découle d'une forêt.
         D'autre part, nous avons proposé une méthode de sélection de variables au moyen des forêts aléatoires, en tenant compte de la double attente que l'on peut avoir en terme de sélection de variables (prédiction ou interprétation). L'avantage de cette méthode par rapport à d'autre est qu'elle est entièrement guidée par les données, sans aucun paramètre à calibrer.  Nous avons actuellement entrepris la création d'un package associé (VSURF) ainsi que la rédaction d"un article détaillant et illustrant la méthode.

      • la sélection de variables à travers CART :
        Ce travail a été réalisé en collaboration avec Marie Sauvé, étudiante en thèse sous la direction de P. Massart.

        Soit L={(X1,Y1),...,(Xn,Yn)}, n copies indépendantes d'un couple de variables aléatoires (X,Y) où Y est la variable réponse et X=(X^1,...,X^p) un vecteur de p variables explicatives réelles.
        Dans le contexte des variables réelles, de nombreuses méthodes de sélection de variables existent, notamment dans le cadre des modèles linéaires. On peut, par exemple, citer la "Subset Selection", Lasso ou encore LARS qui sont des méthodes exhaustives ou pénalisées qui font intervenir le critère des moindres carrés.
        Pour notre part, nous privilégionsCART et une méthode pénalisée en recourant à une approche séletion de modèle par minimisation d'un contraste empirique pénalisé. Voici succintememt une description de la procédure.
        Soit G={X^1,...,X^p}. Pour tout sous-ensemble M de G, on construit l'arbre CART maximal T{max,M} en ne faisant intervenir dans les divisions de l'arbre que les variables du paquet M. Ensuite, pour tout sous-arbre T de T{max,M}, on considère le modèle S{M,T} constitué des fonctions constantes par morceaux sur la partition induite par T. Pour finir, on procède à la sélection de modèle dans la collection {
        S{M,T}, M dans P(G), T sous-arbre de T{max,M}}, en minimisant un contraste empirique pénalisé.
        Dans un premier temps, nous avons déterminé la fonction de pénalité à mettre en œuvre de manière à valider cette procédure. Dans un second temps,  nous nous sommes intéressées à l'application de cette procédure.


      • l'objectivation de l'agrément de conduite :
        Ce travail a été mené en partenariat avec la Direction de la Recherche de Renault.
        L'industire automobile, comnme par exemple Renault, souhaite satisfaire sa clientèle. Dans ce but, des sondages sont réalisés afin de déterminer les prestations à améliorer. Une fois ces dernières identifiées, il s'agit de les quantifier ou objectiver afin de pouvoir intégrer les résultats dans un cahier des charges relatif à la conception du véhicule.
        Concrètement, cela signifie qu'il faut déterminer des critères véhicule, encore appelés critères "physiques", responsables de la satisfaction du conducteur (ou agrément de conduite) liée à la prestation évaluée.
        L'étude qui nous occupe est relative à la boîte de vitesses et au confort ressenti par le conducteur lors de la mise en mouvement du véhicule.
        Afin de pouvoir mener à bien cette étude, une campagne d'essais a été réalisée sur un véhicule instrumenté. Celle-ci a requis plusieurs pilotes et différentes conditions de roulage afin de traduire diverses situations (route, autoroute,...) et façon de conduire (brusque, douce,...). De même, elle a impliqué différents réglages de la boîte de vitesses. A l'issu de chacun des essais, menés par paire, la satisfaction pilote était relevée ainsi que de nombreux signaux "physiques" (accélération, couple,...).
        Après l'élimination des essais associés à des mesures erronées et le traitement de la réponse pilote, les données d'étude, qui nous ont été fournies, sont les suivantes :

                  - Xi = (Xi,1,...,Xi,21) avec Xi,j = Xi,j(t) la j ème variable fonctionnelle mesurée lors de l'essai i
                - Yi = le rang attribué au produit testé au cours de l'essai i          

        Afin de déterminer les signaux pertinents, ainsi que la plage temporelle responsable de cette pertinence, la démarche mise en place s'articule en trois grandes phases : une étape de prétraitements (synchronisation, débruitage par ondelettes) pour rendre les signaux "homogènes", une étape de compression par ondelettes afin de réduire le fléau de la dimension et pour finir une étape de sélection en cinq points qui mêle CART, l'importance des variables et une stratégie pas à pas.



    • La classification de données fonctionnelle
      La classification binaire consiste à déterminer, au moyen de données L={(Xi,Yi), 1<i<n} où (Xi,Yi) est dans X*{0;1}, une fonction appelée classifieur qui permet d'associer à chaque observation de
      X une réponse dans {0;1}.
      Une méthode classique et usuelle pour déterminer des classifieurs consiste à utiliser la méthode des k-plus proches voisins. Cette méthode a largement été étudiée dans le cas des données multivariées, autrement dit lorsque
      X=R^d.
      Cependant, aujourd'hui de nombreuses applications font appel à des données de type fonctionnel auxquelles on souhaite pouvoir appliquer la méthode des k-plus proches voisins.

      • les k-plus proches voisins pour des données fonctionnelles :
        Ce travail est le fruit d'une collaboration avec Magalie Fromont, maître de conférence à l'université Rennes2.
        On dispose d'un échantillon L={(X1,Y1),...,(Xn,Yn)} tel que les observations Xi appartiennent à un espace fonctionnel X supposé séparable.
        Notre travail repose sur l'approche développée par Biau,Bunea et Wegkamp (2005). Il s'agit de projeter ces données dans une base de
        X
        et, pour d entier naturel non nul, à considérer les variables explicatives Xi,d qui sont les d premiers coefficients de la projection de la variable Xi.
        Par ce biais, nous nous ramenons au cadre multivarié, dans lequel il est alors envisageable de procéder à une classification par la règle des k-plus proches voisins aui doit intégrer la sélection simultannée de la dimension d de l'espace de projection et du nombre de voisins k. Afin de procéder à cette double phase de sélection Biau et al. ont proposé de pénaliser la procédure des k-plus proches voisins par un terme en log(d)/m où m est le nombre d'observations utilisées lors de la phase de validation de la procédure des k-plus proches voisins.
        Nous avons, pour notre part, montré que considérer une version non pénalisée ou légèrement pénalisée est efficace dans la théorie, mais que l'introduction d'un léger terme de pénalité permet de stabiliser la procédure. En outre, un travail sur données réelles et simulées permet de donner un ordre de grandeur de la pénalisation à mettre en œuvre.


    • Projet de recherche
      • Travail avec des sismoloques d'EDF afin de tester des modèles servant à estimer le couple (profondeur/magnitude) d'un séisme.
      • Poursuite du travail initié avec Patricia Reynaud-Bouert et Franck Grammont avec si possible une généralisation au cadre de p neurones, p>2.
      • Poursuite des différents travaux en cours.