L1aes Statistiques

1. (22 jan) Présentation du cours : page web du cours, exemples de documents publiés.
Rappel du 1er semestre : vocabulaire, qq objets (voir document projeté).
Quelques objectifs de la Statistique descriptive (résumer les données brutes, distinguer "ce qu'il y a à voir", comparer des populations , modéliser la population). Quelques objectifs de la statistique inférentielle : Approximer avec un échantillon, modéliser une population.
Remarques sur les sources de données utilisées dans le cours et les TD : données réelles, simulations. Logiciels

Lecture : Extrait de publications de l'INSEE ou d'autres organismes avec des objets au programme du cours.

En attente : illustration de "ce qu'il y a à voir"

2. (29 jan) Agrégation des données brutes pour 2 caractères (ou variables) ou plus : tableau d'effectifs, fréquences (conjoints, marginals), représentation graphique. Intérêt d'un tableau de fréquences : comparaison de deux populations de taille différente. Vocabulaire : données brutes ou série statistique ; tableau d'effectif ou tableau de contingence ou distribution des valeurs. Notations N, n_x,f_x,n_x,y,f_x,y Relation N = Σ_x n_x= Σ_x,y n_x,y ; 1=Σ_x f_x= Σ_x,y f_x,y.
Une première fréquence conditionnelle (fréquence des filles en licence de Droit dans le tableau de l'Insee). Cf le Document projeté.

3. (5 fev) Classe (= une partie des valeurs prises par une variable X ou une famille de variables (X₁,...,X_n)), évènement (= un ensemble d'éventualités Cf langage des probalilités, souvent exprimé par une propriété des valeurs prises par une famille de variables), exemples ; evt certain Ω, evt impossible, négation de E : non(E), et, ou ; effectif n_E et fréquence f_E d'un evt E. Fréquence conditionnelle f_E|F, exemple avec le tableau des effectifs étudiants, ex de calculs.

4. (12 fev) Langage des probabilités dans les rapports publics. Probabilité calculée à partir d'un modèle (ex. chance de succès de la mise en orbite d'un satélite, risque de collision d'une météorite avec la terre) ou issue d'une observation statistique (ex. probabilité d'avoir trouvé un emploi dans les 6 mois suivant la fin de la formation, risque de défaillance d'une puce électronique) ; dans le second cas on a P(E):=f_E, P(E|F):=f_E|F. Extraits de tels rapports, formalisation d'un extrait de texte.
Calcul d'un effectif et d'une fréquence (ou d'une probabilité) par conditionnement : f_E=f_E|F×f_F +f_E|nonF×f_nonF ; plus généralement f_E=f_E|F1×f_F1 + ... + f_E|Fn×f_Fn sous l'hypothèse que chaque individu est concerné par un et un seul des evts F_i ; exemple avec le tableau des effectifs étudiants : calcul de la proportion de filles à l'université.

Documents projetés : extrait du rapport 2007-2008 de l'ONPES, extrait du document "Les jeunes et la sécurité routière" de l'OMS (2007).

5. (19 fev) Exercices : retour sur le calcul de la proportion de filles à l'Université, formalisation d'extrait de textes, exercice 5 de la feuille 1 de TD. On utilise la "formule de Bayes" : f_E|F×f_F=f_F|E×f_E (=f_EetF).
Cours : Liaison entre évènements. E est l'evt certain si f_E=1. E est l'evt impossible si f_E=0. E détermine F ou encore E rend F certain si f_F|E=1. Affaiblissement : E détermine pratiquement F si f_F|E≈1 (concrètement pour ce cours : entre 0.9 et 1 mais ça dépend du contexte)
F est indépendant de E si - informellement : la réalisation de F n'apporte pas d'information sur la réalisation de E - formellement : si f_F|E=f_F. Affaiblissement : F est pratiquement indépendant de E si f_F|E/f_F≈1 (concrètement pour ce cours : entre 0.9 et 1.1 mais ça dépend du contexte).
Liaison entre E et F si f_F|E/f_F est loin de 1 (concrètement pour ce cours <0.9 ou > 1.1). Discours : E rend F 2 fois plus probable (f_F|E/f_F=2) ; E diminue la probabilité de F de 20% (f_F|E/f_F=0.8).

6. (5 mar) Rappel indépendance/liaison entre deux evts E,F via le nombre q= f_E|F/f_E= f_EetF/f_E×f_F= f_F|E/f_F. La liaision est symétrique en E te F : si E rend F 20% plus probable alors F rend aussi E 20% plus probable. La liaison est d'autant plus forte que q est loin de 1. Cas extrème : q=0 (E et F sont disjoints ou exclusifs) ; q=1/f_E (F rend E certain) ; q=1/f_F (E rend F certain). On a toujours 0≤q≤min{1/f_E,1/f_F} et même 1-f_E-f_F≤q (Utiliser la "formule de Poincaré" : f_EouF = f_E+ f_F- f_EetF).
Déf. Supposons q>>1 (F rend E significativement plus probable); la liaison entre E et F est significative pour E si f_F|E>>0 (par ex. >0.1 mais cela dépend du contexte), d'autant plus significative pour E que f_F|E est grand. La liaison peut être significative pour l'un des evts sans l'être pour l'autre. Exemple : test pour le diagnostic d'une maladie (Cf feuille de TD 2).
q<<1 : on se ramène à q>>1 en considérant la liaison entre E et non(F) ou entre non(E) et F suivant le contexte.
Déf. On observe une liaison entre un caractère X et un evt E s'il existe un evt F exprimé en terme de X, significatif (ie f_F>>0) et lié à E. Liaison entre deux caractères X et Y s'il existe des evts E exprimé en terme de X et F exprimé en terme de Y, significatifs (f_E et f_F>>0) et liés entre eux.

7. (12 mar, 1H) Liaison entre deux caractères qualitatifs X,Y en terme des nombres q_x,y=f_x,y/f_x×f_y, x et y décrivant les valeurs prises par X et Y (sous l'hypothèse f_x,f_y>>0 pour tous les x,y) ; Mesure de la liaison entre deux caractères qualitatifs X,Y par le nombre χ²(X,Y)=N×∑_x,y(q_x,y-1)²f_xf_y ; On a 0 ≤ χ² ≤ N×min{r-1,s-1} où r et s sont le nombre de valeurs prises par X et Y, interprétation des valeurs extrèmes en terme de liaison, exemple de calcul.

8. (19 mar, 1H) Rappel χ², Liaison entre un caractère quantitatif et un caractère qualitatif via les résumés conditionnels et le coefficient de corrélation. Cf résumé de cours de 2011-12.
Document projeté (ou pas) : résumé conditionnel dans quelques publications de l'INSEE.

9. (25 mar) Liaison entre deux caractères quantitatifs X,Y via le coefficient de corrélation linéaire r(X,Y) ; régression linéaire. Cf résumé de cours de 2011-12.
Document projeté : quelques nuages de points avec le coefficient de corrélation linéaire associé, droite de régression, résidus. Autre document : analyse du résidu, autre modèle de régression.

10. (2 avr) Droite de régression, centre du nuage de points ; qualité de la régression linéaire suivant trois critères : R est petit devant Y (σ_R/σ_Y=√(1-r²) est proche de 0) ; (2) R est indépendant de X ; (3) intervalle de confiance sur r (Cf ci-dessous) et qualité de la prédiction.
Document projeté.

Lecture : animation autour de la droite de régression sur la page du cours Statistique générale , Agrocampus Ouest

Echantillonnage : échantillon de taille n d'une population T de taille N = ensemble de n individus choisis au hasard (et sans biais) parmis les individus de T ; deux types d'échantillon : (1) les individus sont choisis sans répétition (S est une sous-population de T), (2) les individus sont choisis avec répétition (et alors on peut avoir n>N). Pour E un evt ou X un caractère quantitatif on veut comparer f_E à f_E|S et Moy(X) à Moy(X|S) ; f_E|S et Moy(X|S) dépendent de S, ce sont des variables aléatoires. Si l'échantillon S est choisi avec répétition on a : Moy(f_E|S, S décrivant tous les échantillons de taille n)=f_E , σ(f_E|S)=√(f_E(1-f_E))/√n ; idem pour Moy(X|S) ; commentaire : f_E|S est d'autant plus proche de f_E que n est grand. Intervalle de confiance pour f_E|S et Moy(X|S) sous l'hypothèse n suffisamment grand et f_E loin de 0 et de 1.
Document projeté.

Lecture : Sondage d'opinion sur Wikipedia.