L1aes Statistiques

1. (4 fev) Présentation du cours : page web du cours, exemples de documents publiés.
Rappel du 1er semestre : vocabulaire, qq objets (voir document projeté).
Quelques objectifs de la Statistique descriptive (résumer les données brutes, distinguer "ce qu'il y a à voir", comparer des populations , modéliser la population). Quelques objectifs de la statistique inférentielle : Approximer avec un échantillon, modéliser une population.
Remarques sur les sources de données utilisées dans le cours et les TD : données réelles, simulations. Logiciels

Lecture : Extrait de publications de l'INSEE ou d'autres organismes avec des objets au programme du cours.

En attente : illustration de "ce qu'il y a à voir"

2. (11 fev) Agrégation des données brutes pour 2 caractères (ou variables) X,Y ou plus : tableau d'effectifs, fréquences (conjoints, marginals). Vocabulaire : données brutes ou série statistique ; tableau d'effectif ou tableau de contingence ou distribution des valeurs. Notations N, n_x ou n_X=x, f_x,n_x,y (ou n_X=x,Y=y), f_x,y Relation N = Σ_x n_x= Σ_x,y n_x,y ; 1=Σ_x f_x= Σ_x,y f_x,y.
Une première fréquence conditionnelle (fréquence des filles en licence de Droit dans le tableau de l'Insee). Cf le Document projeté.

3. (17 fev) Rappel : information sur une population via des caractères X,Y,... ; information statistique et non sur un individu particulier (information "people") : elle n'est pas modifiée si on enlève de la population un individu particulier (ex. médiane des salaires en France).
Classe (= une partie des valeurs prises par une variable X ou une famille de variables (X₁,...,X_n)), évènement (= un ensemble d'éventualités Cf langage des probalilités, souvent exprimé par une propriété des valeurs prises par une famille de variables), exemples ; sous population S_E déterminée par un evt E, evt certain Ω, evt impossible, négation de E : E^c (evt contraire), E et F, E ou F ; effectif n_E et fréquence f_E d'un evt E ; relations n_Ω=N, f_Ω=1, f_E^c=1-f_E, n_EouF=n_E+n_F-n_EetF, idem pour f_EouF. Fréquence conditionnelle f_E|F (fréquence de E dans la sous pop. S_F) ; relations n_EetF = f_E|F×n_F, f_EetF = f_E|F×f_F.
Probabilité d'un evt E (mesure de l'incertitude sur E) ; mesure calculée à partir d'un modèle (ex. risque de collision d'une météorite avec la terre) ou issue d'une observation statistique (ex. probabilité qu'un composant électronique soit défectueux) ou un mélange des deux. En statistique descriptive : Probabilité qu'un evt E soit réalisé pour un individu choisi au hasard dans la population P(E):=f_E.

4. (4 mar) Probabilité conditionnelle P(E|F) calculée comme f_E|F. Formule de Bayes f_E|F×f_F = f_F|E×f_E (= f_EetF), idem avec probabilité à la place de fréquence ; exemple construction du slogan "Fumer double le risque de maladie cardiovasculaire" avec la fréquence des fumeurs observée chez les malades du coeur et la fréquence estimée (par sondage par ex.) des fumeurs dans la population entière ; calcul f_{Malade|Fumeur}=f_{Fumeur|Malade}×f_Malade/f_Fumeur, discours "Fumer multiplie les risques d'être malade par le nombre f_Malade/f_Fumeur" lorsque la population de référence est la population entière ; comparaison de f_{Malade|Fumeur} avec f_{Malade | nonFumeur} (de sorte que la population de référence soit celle des non-fumeurs) : calcul par conditionnement f_E= f_E|F×f_F+f_E|nonF×f_nonF d'où une expression de f_{Malade | nonFumeur}. Exemples numériques (voir TD). Généralisation du calcul par conditionnement f_E=f_E|F1×f_F1 + ... + f_E|Fn×f_Fn sous l'hypothèse que chaque individu est concerné par un et un seul des evts F_i ; exemple avec le calcul de la proportion de filles à l'université avec le tableau des effectifs étudiants, Cf le document projeté.

Lecture : le langage des probabilités dans les rapports publics avec cet extrait du rapport 2007-2008 de l'ONPES

5. (11 mar) Indépendance/liaison entre deux evts E,F via le nombre q=q_E,F= f_EetF/(f_E×f_F) = f_E|F/f_E= f_F|E/f_F et discours associé : "F rend E q fois plus probable" ou "F augmente les chances de E de 100×(q-1) %" avec comme population de référence la population entière. Si q est proche de 1 (notation q≈1, concrètement pour ce cours : q entre 0.9 et 1.1 mais ça dépend du contexte), on dit qu'on observe pratiquement l'indépendance entre E et F dans la population étudiée (l'observation dépend de la population) ; si q est loin de 1 on dit qu'on observe une liaison entre E et F et la liaison est quantifiée par q. Exemple numérique avec la fréqeuntation du restaurant universitaire d'un campus science (voir TD). Cas extrème : q=0 (E et F sont disjoints ou exclusifs) ; q=1/f_E (F rend E certain) ; q=1/f_F (E rend F certain). On a toujours 0≤q≤min{1/f_E,1/f_F}. Supposons q>>1 (F rend E significativement plus probable); la liaison entre E et F est significative pour E si f_F|E>>0 (par ex. >0.1 mais cela dépend du contexte) ; exemple avec le diagnostic d'une maladie E par un test F : qualité du test. Accentuation de l'observation d'une liaison en formant le quotient f_E|F/f_{E| nonF} plutôt que f_E|F/f_E ; ces deux nbres sont proches si f_F est proche de 0
On observe une liaison entre un caractère X et un evt F s'il existe un evt E exprimé en terme de X, significatif (ie f_E>>0) et lié à E. Liaison entre deux caractères X et Y s'il existe des evts E exprimé en terme de X et F exprimé en terme de Y, significatifs (f_E et f_F>>0) et liés entre eux.

6. (18 mar) Rappel : résumé d'un caractère X = (valeur centrale, mesure de la dispersion), cas d'une variable qualitative (mode, une représentation graphique des fréquences telle un camembert), cas d'une variable quantitative (médiane, intervalle interquartile ou ...) ou bien (moyenne, écart type). Résumé conditionnel d'un caractère X conditionnellement à un évènement E, noté Res(X|E) ; Res(X|E)≈Res(X) si X est pratiquement indépendant de E, application à l'observation d'une liaison entre X et E, plus généralement entre X et une variable qualitative Y (mais l'observation de Res(X|E)≈Res(X) ne suffit pas à observer l'absence de liaison). Exemples de résumés conditionnels dans les rapports publics et observation de liaisons avec ce document projeté.
Mesure de la liaison entre deux caractères X,Y par le nombre χ²(X,Y)=N×∑_x,y(q_x,y-1)²f_xf_y ; On a 0 ≤ χ² ≤ N×min{r-1,s-1} où r et s sont les nombres de valeurs prises par X et Y, interprétation des valeurs extrèmes.

Lectures : diagramme circulaire sur Wikipedia

7. (25 mar) Organisation du calcul du χ² via le tableau des effectifs conjoints, interprétation des valeurs extremes 0 (stricte indépendance) et N×min{r-1,s-1} (l'un des caractères est une fonction de l'autre), exemples de calculs avec des tableaux d'effectifs. Rq : le χ² est plutôt utilisé en statistique inférentielle (test de l'hypothèse d'indépendance).
Moyenne d'un caractère quantitatif conditionnellement à un caractère qualitatif, calcul par conditionnement d'une moyenne, variance intra et inter-groupe, coefficient de corrélation η²_X|Y∈[0,1], interprétation des valeurs extrèmes 0 et 1, cf le résumé de cours de 2011-12.

Lectures : le test du χ² sur le blog Alea

8. (1 avr) Coefficient de correlation linéaire entre deux caractères quantitatifs, régression linéaire. Cf résumé de cours de 2011-12.