L1aes Statistiques

1. (21 jan) Objectifs du cours (Cf Présentation) : étude des rapports entre plusieurs caractères d'une population. Extraits de documents publiques. Rappel sur l'analyse statistique d'un caractère d'une population : quantiles, box-plot, histogramme. Deux exemples de l'études de deux caractères : comparaison des box-plot, nuage de points.
Document projeté lors du 1er cours (format pour impression plus bas). Vocabulaire.

2. (28 jan) Exemple de données brutes ou d'apparence brute. Agrégation d'un caractère : tableau d'effectifs, représentation graphique, transformation d'un caractère quantitatif en caractère qualitatif (à valeurs ordonnées) en divisant l'étendue du caractère en intervalles. Agrégation de deux caractères : tableau des effectifs conjoints. Exemples avec des caractères qualitatifs ou quantitatifs. Cas du nbre de passagers entre 1949 et 1960.
Fréquence d'une valeur d'un caractère (rappel du 1er semestre). Définitons et exemples de calculs des fréquences conjointes, marginales, conditionnelles associées à deux caractères qualitatifs, ou à des caractères quantitatifs lorsqu'on a divisé l'étendue en intervalles.
Document projeté (pages 1-17). Vocabulaire.

3. (4 fev) Relations entre effectifs margianux ou fréquences marginales et fréquences conditionnelles, exemple avec le tableau étudiant (effectif des filles).
Notion d'évènement, exemples, fréquence d'un évènement, fréquence d'un évènement conditionné à un autre ; Indépendance entre deux évènements : définition informelle, 1ère approche quantitative (f_E|F / f_E ≈ 1).
Document projeté (format pour impression plus bas). Vocabulaire.

4. (11 fev) Représentation graphique des fréquences et des fréquences conditionnelles, observation graphique de l'indépendance.
Algèbre des évènements, décomposition de l'évènement certain en évènements disjoints et calculs d'effectifs ou de fréquences par conditionnement. Ex. fréquence des filles en filière Droit avec les données du document projeté.
Document projeté : celui du cours 3.

5. (18 fev) Rappel : 3 formules de calcul avec les fréquences conditionnelles (calcul par conditionnement, lien entre f_{E et F,}f_E|F et f_F|E, formule de Bayes).
Interprétation probabiliste d'une fréquence : rencontre ou choix d'un individu au hasard (point de vue du cabinet médical ou de l'institut de sondage), vocabulaire couramment employé (hasard, probable, risque, chance), un exemple : connaissance statistique de la population en aide au diagnostique a priori de l'hépatite C par le médecin, diagnostique par la recherche d'évènements fortement liés.
Exercice 1 de l'interrogation de mars 2010 (calculs avec les fréquences conditionnelles).

6. (25 fev) Définition de l'indépendance/liaison de deux variables qualitatives ou quantitatives (exemple pathologique : individu déterminé par la valeur d'un caractère → éviction des valeurs ou intervalle de valeurs dont l'effectif est trop faible).
Rappel (1er semestre) : Résumé par une valeur d'une variable qualitative (valeur modale ou multi-modale, ex. localité de la résidence principale) ou quantitative (médiane, moyenne), dispertion (écart inter-quartile, écart type). Valeur modale, médiane, moyenne conditionée à un évènement.
Lecture : fréquence d'un caractère, mode, médiane, moyenne conditionnelle dans des extraits de publications.

7. (11 mars, 3H) Rappel : Définition de la liaison/indépendance entre deux évènements E,F (cas extrème : sachant F, E est certain ou impossible, intervalle de valeurs pour le quotient f_E|F/f_E: [0,1/f_E], lecture d'une valeur (exemple : f_E|F/f_E=1.5 → "sachant F, E est 1,5 fois plus probable ou a 50% de chance en plus de se produire") ; liaison/indépendance entre une variable X (ou caractère) et un évènement F (via les évènements E définis en terme de la variable X sous la condition n_E suffisamment grand), liaison/indépendance entre deux variables X,Y.
Observation d'une liaison entre une variable X et un évènement F en comparant le résumé de X pour la population entière (valeur modale dans le cas qualitatif, moyenne ou médiane dans le cas quantitatif et dispersion) au résumé de X conditionné à F (résumé de X pour la sous-population déterminée par F).
Etude de la liaison de deux variables quantitatives X,Y par le coefficient de corrélation linéaire r(X,Y), tendance (Y croît avec X ou décroît suivant que r est positif ou négatif), représentation graphique : nuage de points et droite de régression.
Document projeté avec commentaires : résumés conditionnels d'une variable, liaison et coefficient de corrélation de deux variables quantitatives.
Lecture : Galton, Pearson et la régression linéaire sur wikipedia.

8. (18 mars) Rappel : mesure d'une liaison entre deux caractères quantitatifs X,Y par le coefficient de corrélation linéaire r(X,Y), interprétation comme tendance : (X-Moy(X))/σ_X=r(X,Y)(Y-Moy(Y))/σ_Y+Reste, Moy(Reste)=0, σ_Reste=sqrt(1-r²) ; cas extrème : liaison déterministe si r=1 où r=-1.
Droite de régression : celle d'équation y=ax+b où a et b sont choisit de sorte que la variable Y-aX-b soit de moyenne nulle et d'écart-type minimal. On écrit Y=aX+b+Reste ; formules pour a et b. Interprétation géométrique : la droite passe par le centre du nuage de points (Moy(X),Moy(Y)) et est de pente minimisant la dispersion du nuage de points par rapport à la droite. Formule pour l'écart-type du reste : σ_Reste=sqrt(1-r²)σ_Y. Cas extrème : r²=1 ce qui équivaut à ce que Reste soit constant égal à 0 donc à ce que tous les points soient sur la droite de régression ; r²=0 : la droite de régression ne rend compte d'aucune liaison.
Documents projetés : publication du ministère de l'agriculture canadien, feuille de TD 4 de 2009-10 et document du cours 7.

9. Qualité de l'estimation y=aX+b donné par la régression linéaire : a t-on Moy(Y|X)=aX+b ? exemple avec le document projeté ; transformation des variables ("chgt de variable") et régression linéaire : f(Y)=a*g(X)+b+Reste où f et g sont des fonctions numériques choisies a priori ; exemples.
Document projeté.

Echantillons d'une population, fluctuation des fréquences observée dans les échantillons, intervalle de confiance. L'indépendance de deux caractères quantitatifs observée dans une population s'observe t-elle dans un petit échantillon ? Utilisation d'un échantillon pour l'estimation d'une fréquence (institut de sondage) ou d'une mesure (coopératives agricoles).
Document projeté.

10. Réponses aux questions.