L1 AES (ISEM)  -  semestre 2  -  Cours & TD  Statistiques descriptives (½TQA-2) -  2012-13,  


Calendrier : Calendrier universitaireemploi du temps
10 séances de cours de 1.5H (le mardi entre 9h et 12h, SJA 1, amphi 2 et 3 (sauf le 29 janvier : amphi 3 et SJA2-3B48), 5 séances de TD de 1.5 H. Premier cours le 22 janvier 2013, premier TD la semaine du 4 février.
Rq : cours d'analyse par Jérôme Vétois le mardi 9h-12h amphi 2 et 3.
TD par Jérôme Vétois et moi-même.

Contrôle continu : une interrogation d'analyse (1h) pendant le cours du 12 mars, une interro. de stat (1h) pendant le cours du 19 mars.
Au programme de l'interro de stat. : La feuille de TD1 + les définitions du cours jusqu'au 5 mars compris (liaisons/indépendances des évènements)

Tutorat pour les deux cours de TQA (réponses aux questions sur le cours et les td) : mardi 9 avril 9h30 (stat) et 10h30 (analyse) amphi 2

Présentation du cours

Progression du cours :
1. (22 jan) Présentation du cours : page web du cours, exemples de documents publiés.
Rappel du 1er semestre : vocabulaire, qq objets (voir document projeté).
Quelques objectifs de la Statistique descriptive (résumer les données brutes, distinguer "ce qu'il y a à voir", comparer des populations , modéliser la population). Quelques objectifs de la statistique inférentielle : Approximer avec un échantillon, modéliser une population.
Remarques sur les sources de données utilisées dans le cours et les TD : données réelles, simulations. Logiciels

Lecture : Extrait de publications de l'INSEE ou d'autres organismes avec des objets au programme du cours.

En attente : illustration de "ce qu'il y a à voir"

2. (29 jan) Agrégation des données brutes pour 2 caractères (ou variables) ou plus : tableau d'effectifs, fréquences (conjoints, marginals), représentation graphique. Intérêt d'un tableau de fréquences : comparaison de deux populations de taille différente. Vocabulaire : données brutes ou série statistique ; tableau d'effectif ou tableau de contingence ou distribution des valeurs. Notations N, nx,fx,nx,y,fx,y Relation N = Σx nx= Σx,y nx,y ; 1=Σx fx= Σx,y fx,y.
Une première fréquence conditionnelle (fréquence des filles en licence de Droit dans le tableau de l'Insee). Cf le Document projeté.

3. (5 fev) Classe (= une partie des valeurs prises par une variable X ou une famille de variables (X1,...,Xn)), évènement (= un ensemble d'éventualités Cf langage des probalilités, souvent exprimé par une propriété des valeurs prises par une famille de variables), exemples ; evt certain Ω, evt impossible, négation de E : non(E), et, ou ; effectif nE et fréquence fE d'un evt E. Fréquence conditionnelle fE|F, exemple avec le tableau des effectifs étudiants, ex de calculs.

4. (12 fev) Langage des probabilités dans les rapports publics. Probabilité calculée à partir d'un modèle (ex. chance de succès de la mise en orbite d'un satélite, risque de collision d'une météorite avec la terre) ou issue d'une observation statistique (ex. probabilité d'avoir trouvé un emploi dans les 6 mois suivant la fin de la formation, risque de défaillance d'une puce électronique) ; dans le second cas on a P(E):=fE, P(E|F):=fE|F. Extraits de tels rapports, formalisation d'un extrait de texte.
Calcul d'un effectif et d'une fréquence (ou d'une probabilité) par conditionnement : fE=fE|F×fF +fE|nonF×fnonF ; plus généralement fE=fE|F1×fF1 + ... + fE|Fn×fFn sous l'hypothèse que chaque individu est concerné par un et un seul des evts Fi ; exemple avec le tableau des effectifs étudiants : calcul de la proportion de filles à l'université.

Documents projetés : extrait du rapport 2007-2008 de l'ONPES, extrait du document "Les jeunes et la sécurité routière" de l'OMS (2007).

5. (19 fev) Exercices : retour sur le calcul de la proportion de filles à l'Université, formalisation d'extrait de textes, exercice 5 de la feuille 1 de TD. On utilise la "formule de Bayes" : fE|F×fF=fF|E×fE (=fEetF).
Cours : Liaison entre évènements. E est l'evt certain si fE=1. E est l'evt impossible si fE=0. E détermine F ou encore E rend F certain si fF|E=1. Affaiblissement : E détermine pratiquement F si fF|E≈1 (concrètement pour ce cours : entre 0.9 et 1 mais ça dépend du contexte)
F est indépendant de E si - informellement : la réalisation de F n'apporte pas d'information sur la réalisation de E - formellement : si fF|E=fF. Affaiblissement : F est pratiquement indépendant de E si fF|E/fF≈1 (concrètement pour ce cours : entre 0.9 et 1.1 mais ça dépend du contexte).
Liaison entre E et F si fF|E/fF est loin de 1 (concrètement pour ce cours <0.9 ou > 1.1). Discours : E rend F 2 fois plus probable (fF|E/fF=2) ; E diminue la probabilité de F de 20% (fF|E/fF=0.8).

6. (5 mar) Rappel indépendance/liaison entre deux evts E,F via le nombre q= fE|F/fE = fEetF/fE×fF = fF|E/fF. La liaision est symétrique en E te F : si E rend F 20% plus probable alors F rend aussi E 20% plus probable. La liaison est d'autant plus forte que q est loin de 1. Cas extrème : q=0 (E et F sont disjoints ou exclusifs) ; q=1/fE (F rend E certain) ; q=1/fF (E rend F certain). On a toujours 0≤q≤min{1/fE,1/fF} et même 1-fE-fF≤q (Utiliser la "formule de Poincaré" : fEouF = fE + fF - fEetF).
Déf. Supposons q>>1 (F rend E significativement plus probable); la liaison entre E et F est significative pour E si fF|E>>0 (par ex. >0.1 mais cela dépend du contexte), d'autant plus significative pour E que fF|E est grand. La liaison peut être significative pour l'un des evts sans l'être pour l'autre. Exemple : test pour le diagnostic d'une maladie (Cf feuille de TD 2).
q<<1 : on se ramène à q>>1 en considérant la liaison entre E et non(F) ou entre non(E) et F suivant le contexte.
Déf. On observe une liaison entre un caractère X et un evt E s'il existe un evt F exprimé en terme de X, significatif (ie fF>>0) et lié à E. Liaison entre deux caractères X et Y s'il existe des evts E exprimé en terme de X et F exprimé en terme de Y, significatifs (fE et fF>>0) et liés entre eux.

7. (12 mar, 1H) Liaison entre deux caractères qualitatifs X,Y en terme des nombres qx,y=fx,y/fx×fy, x et y décrivant les valeurs prises par X et Y (sous l'hypothèse fx,fy>>0 pour tous les x,y) ; Mesure de la liaison entre deux caractères qualitatifs X,Y par le nombre χ2(X,Y)=N×∑x,y(qx,y-1)2fxfy ; On a 0 ≤  χ2 ≤ N×min{r-1,s-1} où r et s sont le nombre de valeurs prises par X et Y, interprétation des valeurs extrèmes en terme de liaison, exemple de calcul.

8. (19 mar, 1H) Rappel χ2, Liaison entre un caractère quantitatif et un caractère qualitatif via les résumés conditionnels et le coefficient de corrélation. Cf résumé de cours de 2011-12.
Document projeté (ou pas) : résumé conditionnel dans quelques publications de l'INSEE.

9. (25 mar) Liaison entre deux caractères quantitatifs X,Y via le coefficient de corrélation linéaire r(X,Y) ; régression linéaire. Cf résumé de cours de 2011-12.
Document projeté : quelques nuages de points avec le coefficient de corrélation linéaire associé, droite de régression, résidus. Autre document : analyse du résidu, autre modèle de régression.

10. (2 avr) Droite de régression, centre du nuage de points ; qualité de la régression linéaire suivant trois critères : R est petit devant Y (σRY=√(1-r2) est proche de 0) ; (2) R est indépendant de X ; (3) intervalle de confiance sur r (Cf ci-dessous) et qualité de la prédiction.
Document projeté.

Lecture : animation autour de la droite de régression sur la page du cours Statistique générale, Agrocampus Ouest

Echantillonnage : échantillon de taille n d'une population T de taille N = ensemble de n individus choisis au hasard (et sans biais) parmis les individus de T ; deux types d'échantillon : (1) les individus sont choisis sans répétition (S est une sous-population de T), (2) les individus sont choisis avec répétition (et alors on peut avoir n>N). Pour E un evt ou X un caractère quantitatif on veut comparer fE à fE|S et Moy(X) à Moy(X|S) ; fE|S et Moy(X|S) dépendent de S, ce sont des variables aléatoires. Si l'échantillon S est choisi avec répétition on a : Moy(fE|S, S décrivant tous les échantillons de taille n)=fE , σ(fE|S)=√(fE(1-fE))/√n ; idem pour Moy(X|S) ; commentaire : fE|S est d'autant plus proche de fE que n est grand. Intervalle de confiance pour fE|S et Moy(X|S) sous l'hypothèse n suffisamment grand et fE loin de 0 et de 1.
Document projeté.

Lecture : Sondage d'opinion sur Wikipedia.


Documents de cours :

Feuille de TD 1corrigé de l'ex. 2 : voir le sujet d'examen d'avril 2012 et son corrigé. Le Sujet et un corrigé d'un exercice analogue à l'ex. 3. Corrigé des exercices 5 et 4. Un corrigé des questions c-d-e d'un exercice analogue à l'ex. 6.

Feuille de TD 2,  corrigé de l'ex. 3.b, corrigé de l'ex. 4 (question 2 dans le corrigé, les commentaires se rapportent au sujet B de l'examen de 2009-10), corrigé de l'ex.5 (question 6 dans le corrigé)

Feuille de TD 3,  corrigé de l'ex. 2 (ex1 dans le corrigé), Corrigé de l'exercice 6 (ex.4 dans le corrigé)

Interrogation de Statistique et un corrigé.

Examen 1ère session (sujet A) et un corrigé succint de la partie statistique avec barème.

La page du cours en 2011-12

Lectures :
[1] A. Hamon & N. Jégou, Statistique descriptive, Presse Univ. Rennes 2008.  Disponible à la BU St Jean d'Angely.

[2] B.Escofoer-J.Pagès, Initiation aux traitements statistiques, Presses Univ. de Rennes 1997.

F-X. Dehon, Laboratoire J.A. Dieudonné, 21 janvier 2013