Recherche


 Navigation :

Accueil

Communications

Enseignements


Publication




Thèse soutenue le 5 décembre 2005 : (manuscrit .ps; .pdf);
  • Titre de la thèse :
                       Sélection de variables pour la discrimination en grande dimension
                                        classification de données fonctionnelles

  • Composition du jury :
    • Philippe Besse (Université Paul Sabatier)             : rapporteur
    • Gérard Biau (Université Montpellier II)                : rapporteur
    • Jean-Jacques Daudin (INA-PG, Paris)                : examinateur
    • Pascal Massart (Université Paris-Sud Orsay)       : président
    • Jean-Michel Poggi (Université René Descartes)   : directeur de thèse;
    • Nadine Ansaldi (Renault)                                    : invitée


 

        Thèmes de  recherche :
    • la sélection de variables :

      On dispose d'un échantillon d'apprentissage composé de n couples de variables (Xi,Yi) où Y est la variable réponse et X un vecteur contenant p variables explicatives.
      L'objectif principal de ses recherches consiste à identifier parmi l'ensemble des p variables dont on dispose , le plus petit paquet de variables capable à lui seul d'expliquer le phénomène étudié.
      Deux types de varaibles explicatives ont été considérées : les variables réelles et fonctionnelles.
      • la sélection de variables à travers CART :
        r
        Ce travail a été réalisé en collaboration avec Marie Sauvé, étudiante en thèse sous la direction de P. Massart.

        e
        Soit L={(X1,Y1),...,(Xn,Yn)}, n copies indépendantes d'un couple de variables aléatoires (X,Y) où Y est la variable réponse et X=(X^1,...,X^p) un vecteur de p variables explicatives réelles.
        Dans le contexte des variables réelles, de nombreuses méthodes de sélection de variables existent, notamment dans le cadre des modèles linéaires. On peut, par exemple, citer la "Subset Selection", Lasso ou encore LARS qui sont des méthodes exhaustives ou pénalisées qui font intervenir le critère des moindres carrés.
        Pour notre part, nous privilégionsCART et une méthode pénalisée en recourant à une approche séletion de modèle par minimisation d'un contraste empirique pénalisé. Voici succintememt une description de la procédure.
        Soit G={X^1,...,X^p}. Pour tout sous-ensemble M de G, on construit l'arbre CART maximal T{max,M} en ne faisant intervenir dans les divisions de l'arbre que les variables du paquet M. Ensuite, pour tout sous-arbre T de T{max,M}, on considère le modèle S{M,T} constitué des fonctions constantes par morceaux sur la partition induite par T. Pour finir, on procède à la sélection de modèle dans la collection {
        S{M,T}, M dans P(G), T sous-arbre de T{max,M}}, en minimisant un contraste empirique pénalisé.
        Dans un premier temps, nous avons déterminé la fonction de pénalité à mettre en œuvre de manière à valider cette procédure. Dans un second temps,  nous nous sommes intéressées à l'application de cette procédure.


      • l'objectivation de l'agrément de conduite :
        r
        Ce travail a été mené en partenariat avec la Direction de la Recherche de Renault.
        u
        L'industire automobile, comnme par exemple Renault, souhaite satisfaire sa clientèle. Dans ce but, des sondages sont réalisés afin de déterminer les prestations à améliorer. Une fois ces dernières identifiées, il s'agit de les quantifier ou objectiver afin de pouvoir intégrer les résultats dans un cahier des charges relatif à la conception du véhicule.
        Concrètement, cela signifie qu'il faut déterminer des critères véhicule, encore appelés critères "physiques", responsables de la satisfaction du conducteur (ou agrément de conduite) liée à la prestation évaluée.
        L'étude qui nous occupe est relative à la boîte de vitesses et au confort ressenti par le conducteur lors de la mise en mouvement du véhicule.
        Afin de pouvoir mener à bien cette étude, une campagne d'essais a été réalisée sur un véhicule instrumenté. Celle-ci a requis plusieurs pilotes et différentes conditions de roulage afin de traduire diverses situations (route, autoroute,...) et façon de conduire (brusque, douce,...). De même, elle a impliqué différents réglages de la boîte de vitesses. A l'issu de chacun des essais, menés par paire, la satisfaction pilote était relevée ainsi que de nombreux signaux "physiques" (accélération, couple,...).
        Après l'élimination des essais associés à des mesures erronées et le traitement de la réponse pilote, les données d'étude, qui nous ont été fournies, sont les suivantes :

                  - Xi = (Xi,1,...,Xi,21) avec Xi,j = Xi,j(t) la j ème variable fonctionnelle mesurée lors de l'essai i
                - Yi = le rang attribué au produit testé au cours de l'essai i          

        Afin de déterminer les signaux pertinents, ainsi que la plage temporelle responsable de cette pertinence, la démarche mise en place s'articule en trois grandes phases : une étape de prétraitements (synchronisation, débruitage par ondelettes) pour rendre les signaux "homogènes", une étape de compression par ondelettes afin de réduire le fléau de la dimension et pour finir une étape de sélection en cinq points qui mêle CART, l'importance des variables et une stratégie pas à pas.





    • La classification de données fonctionnelle

      La classification binaire consiste à déterminer, au moyen de données L={(Xi,Yi), 1<i<n} où (Xi,Yi) est dans X*{0;1}, une fonction appelée classifieur qui permet d'associer à chaque observation de
      X une réponse dans {0;1}.
      Une méthode classique et usuelle pour déterminer des classifieurs consiste à utiliser la méthode des k-plus proches voisins. Cette méthode a largement été étudiée dans le cas des données multivariées, autrement dit lorsque
      X=R^d.
      Cependant, aujourd'hui de nombreuses applications font appel à des données de type fonctionnel auxquelles on souhaite pouvoir appliquer la méthode des k-plus proches voisins.

      • les k-plus proches voisins pour des données fonctionnelles :
        r
        Ce travail est le fruit d'une collaboration avec Magalie Fromont, maître de conférence à l'université Rennes2.
        r
        On dispose d'un échantillon L={(X1,Y1),...,(Xn,Yn)} tel que les observations Xi appartiennent à un espace fonctionnel X supposé séparable.
        Notre travail repose sur l'approche développée par Biau,Bunea et Wegkamp (2005). Il s'agit de projeter ces données dans une base de
        X
        et, pour d entier naturel non nul, à considérer les variables explicatives Xi,d qui sont les d premiers coefficients de la projection de la variable Xi.
        Par ce biais, nous nous ramenons au cadre multivarié, dans lequel il est alors envisageable de procéder à une classification par la règle des k-plus proches voisins aui doit intégrer la sélection simultannée de la dimension d de l'espace de projection et du nombre de voisins k. Afin de procéder à cette double phase de sélection Biau et al. ont proposé de pénaliser la procédure des k-plus proches voisins par un terme en log(d)/m où m est le nombre d'observations utilisées lors de la phase de validation de la procédure des k-plus proches voisins.
        Nous avons, pour notre part, montré que considérer une version non pénalisée ou légèrement pénalisée est efficace dans la théorie, mais que l'introduction d'un léger terme de pénalité permet de stabiliser la procédure. En outre, un travail sur données réelles et simulées permet de donner un ordre de grandeur de la pénalisation à mettre en œuvre.


    • Projet de recherche
      • Travail en connexion avec les neurosciences au travers une collaboration avec Patricia Reynaud-Bouret, Yann Bouret et Franck Grammont.
        L'objectif de ce travail est d'essayer d'identifier les neuronnes qui interagissent localement entre eux, lors d'une tâche sensorimotrice donnée et si possible d'établir une cartographie de l'interaction entre neuronnes au cours du temps. Pour cela, nous disposons de données enregistrées sur des singes. Différentes problématiques se posent comme la modélisation sous jacente de l'activité neuronale ou encore le faible nombre de données. En ce qui concerne la modélisation, nous nous orientons vers les processus de Hawkes. De plus amples détails sur ce projet sont disponibles ici.
      • Travail en collaboration avec Patricai Reynaud-Bouret et Gérard Biau sur une meilleure compréhension de l'algorithme CART. En effet, si théoriquement cet algorithme est compris en ce qui concerne ses deux dernières étapes depuis les travaux de Gey d'une part et de Tuleau d'autre part, ces résultats sont tous obtenus conditionnellement à la première phase, à savoir la construction d'un arbre maximal. L'idée est ici de comprendre, d'un point de vue théorique, la totalité de l'algorithme.
      • Travail avec des médecins, soit de l'hôpital l'Archet, soit de l'INSERM de Nice sur des thématiques appliquées.