L1 AES (ISEM)  -  semestre 2  -  Cours & TD  Statistiques descriptives (TQA) -  2010-11,  


Calendrier : Calendrier universitaireemploi du temps
10 séances de cours de 1.5H, 5 séances de TD de 1.5 H. Premier cours le 21 janvier 2011, premier TD le 31 janvier

Tutorat pour les deux cours de TQA (réponses aux questions sur le cours et les td) : le jeudi de 16h à 18h en salle 309. 1ère séance le 17 février.

Interrogation de statistique en TD la semaine du 14 mars.

Présentation

Progression du cours :
1. (21 jan) Objectifs du cours (Cf Présentation) : étude des rapports entre plusieurs caractères d'une population. Extraits de documents publiques. Rappel sur l'analyse statistique d'un caractère d'une population : quantiles, box-plot, histogramme. Deux exemples de l'études de deux caractères : comparaison des box-plot, nuage de points.
Document projeté lors du 1er cours (format pour impression plus bas). Vocabulaire.

2. (28 jan) Exemple de données brutes ou d'apparence brute. Agrégation d'un caractère : tableau d'effectifs, représentation graphique, transformation d'un caractère quantitatif en caractère qualitatif (à valeurs ordonnées) en divisant l'étendue du caractère en intervalles. Agrégation de deux caractères : tableau des effectifs conjoints. Exemples avec des caractères qualitatifs ou quantitatifs. Cas du nbre de passagers entre 1949 et 1960.
Fréquence d'une valeur d'un caractère (rappel du 1er semestre). Définitons et exemples de calculs des fréquences conjointes, marginales, conditionnelles associées à deux caractères qualitatifs, ou à des caractères quantitatifs lorsqu'on a divisé l'étendue en intervalles.
Document projeté (pages 1-17). Vocabulaire.

3. (4 fev) Relations entre effectifs margianux ou fréquences marginales et fréquences conditionnelles, exemple avec le tableau étudiant (effectif des filles).
Notion d'évènement, exemples, fréquence d'un évènement, fréquence d'un évènement conditionné à un autre ; Indépendance entre deux évènements : définition informelle, 1ère approche quantitative (fE|F / fE ≈ 1).
Document projeté (format pour impression plus bas). Vocabulaire.

4. (11 fev) Représentation graphique des fréquences et des fréquences conditionnelles, observation graphique de l'indépendance.
Algèbre des évènements, décomposition de l'évènement certain en évènements disjoints et calculs d'effectifs ou de fréquences par conditionnement. Ex. fréquence des filles en filière Droit avec les données du document projeté.
Document projeté : celui du cours 3.

5. (18 fev) Rappel : 3 formules de calcul avec les fréquences conditionnelles (calcul par conditionnement, lien entre fE et F, fE|F et fF|E, formule de Bayes).
Interprétation probabiliste d'une fréquence : rencontre ou choix d'un individu au hasard (point de vue du cabinet médical ou de l'institut de sondage), vocabulaire couramment employé (hasard, probable, risque, chance), un exemple : connaissance statistique de la population en aide au diagnostique a priori de l'hépatite C par le médecin, diagnostique par la recherche d'évènements fortement liés.
Exercice 1 de l'interrogation de mars 2010 (calculs avec les fréquences conditionnelles).

6. (25 fev) Définition de l'indépendance/liaison de deux variables qualitatives ou quantitatives (exemple pathologique : individu déterminé par la valeur d'un caractère → éviction des valeurs ou intervalle de valeurs dont l'effectif est trop faible).
Rappel (1er semestre) : Résumé par une valeur d'une variable qualitative (valeur modale ou multi-modale, ex. localité de la résidence principale) ou quantitative (médiane, moyenne), dispertion (écart inter-quartile, écart type). Valeur modale, médiane, moyenne conditionée à un évènement.
Lecture : fréquence d'un caractère, mode, médiane, moyenne conditionnelle dans des extraits de publications.

7. (11 mars, 3H) Rappel : Définition de la liaison/indépendance entre deux évènements E,F (cas extrème : sachant F, E est certain ou impossible, intervalle de valeurs pour le quotient fE|F/fE: [0,1/fE], lecture d'une valeur (exemple : fE|F/fE=1.5 → "sachant F, E est 1,5 fois plus probable ou a 50% de chance en plus de se produire") ; liaison/indépendance entre une variable X (ou caractère) et un évènement F (via les évènements E définis en terme de la variable X sous la condition nE suffisamment grand), liaison/indépendance entre deux variables X,Y.
Observation d'une liaison entre une variable X et un évènement F en comparant le résumé de X pour la population entière (valeur modale dans le cas qualitatif, moyenne ou médiane dans le cas quantitatif et dispersion) au résumé de X conditionné à F (résumé de X pour la sous-population déterminée par F).
Etude de la liaison de deux variables quantitatives X,Y par le coefficient de corrélation linéaire r(X,Y),  tendance (Y croît avec X ou décroît suivant que r est positif ou négatif), représentation graphique : nuage de points et droite de régression.
Document projeté avec commentaires : résumés conditionnels d'une variable, liaison et coefficient de corrélation de deux variables quantitatives.
Lecture : Galton, Pearson et la régression linéaire sur wikipedia.

8. (18 mars) Rappel : mesure d'une liaison entre deux caractères quantitatifs X,Y par le coefficient de corrélation linéaire r(X,Y), interprétation comme tendance : (X-Moy(X))/σX=r(X,Y)(Y-Moy(Y))/σY+Reste, Moy(Reste)=0, σReste=sqrt(1-r2) ; cas extrème : liaison déterministe si r=1 où r=-1.
Droite de régression : celle d'équation y=ax+b où a et b sont choisit de sorte que la variable Y-aX-b soit de moyenne nulle et d'écart-type minimal. On écrit Y=aX+b+Reste ; formules pour a et b. Interprétation géométrique : la droite passe par le centre du nuage de points (Moy(X),Moy(Y)) et est de pente minimisant la dispersion du nuage de points par rapport à la droite. Formule pour l'écart-type du reste : σReste=sqrt(1-r2Y. Cas extrème : r2=1 ce qui équivaut à ce que Reste soit constant égal à 0 donc à ce que tous les points soient sur la droite de régression ; r2=0 : la droite de régression ne rend compte d'aucune liaison.
Documents projetés : publication du ministère de l'agriculture canadien, feuille de TD 4 de 2009-10 et document du cours 7.

9. Qualité de l'estimation y=aX+b donné par la régression linéaire : a t-on Moy(Y|X)=aX+b ? exemple avec le document projeté ; transformation des variables ("chgt de variable") et régression linéaire : f(Y)=a*g(X)+b+Reste où f et g sont des fonctions numériques choisies a priori ; exemples.
Document projeté.

Echantillons d'une population, fluctuation des fréquences observée dans les échantillons, intervalle de confiance. L'indépendance de deux caractères quantitatifs observée dans une population s'observe t-elle dans un petit échantillon ? Utilisation d'un échantillon pour l'estimation d'une fréquence (institut de sondage) ou d'une mesure (coopératives agricoles).
Document projeté.

10. Réponses aux questions.






Documents de cours :
Documents du 1er cours (25jan11, format pour impression).
Documents du 2ème cours (30jan11).
Feuille de TD no1 (3fev11). Corrigé de la question 3b ici.
Documents du 3ème cours
Feuille de TD no2 (14mar11). Corrigé des exercices 1 et 2 ici, corrigé de l'exercice 3 (question 2 dans le corrigé, les commentaires se rapportent au sujet B de l'examen de 2009-10)
Feuille de TD no3 (11avr11)

Interrogation de mars 2011, corrigé de l'exercice (question 1 dans le corrigé)
Examen 1ère sessioncorrigé de la partie statistique avec barème de notation.
Examen 2ème sessioncorrigé de la partie statistique avec barème.


Archives du cours en 2009-10

Lectures :
[1] A. Hamon & N. Jégou, Statistique descriptive, Presse Univ. Rennes 2008.  Disponible à la BU St Jean d'Angely.


F-X. Dehon, Laboratoire J.A. Dieudonné, 27 janvier 2011