1. (21 jan)
Objectifs du cours (Cf
Présentation) :
étude des rapports entre plusieurs caractères
d'une population. Extraits de documents publiques. Rappel sur l'analyse
statistique d'un caractère
d'une population : quantiles, box-plot, histogramme. Deux exemples de
l'études de deux caractères : comparaison des box-plot, nuage de points.
Document projeté lors du
1er cours (format pour impression plus bas).
Vocabulaire.
2.
(28 jan) Exemple de données brutes ou d'apparence brute. Agrégation
d'un
caractère : tableau d'effectifs, représentation graphique,
transformation d'un caractère quantitatif en caractère qualitatif (à
valeurs ordonnées) en divisant l'étendue du caractère en intervalles.
Agrégation de deux caractères : tableau des effectifs conjoints.
Exemples avec des caractères qualitatifs ou quantitatifs. Cas du nbre
de passagers entre 1949 et 1960.
Fréquence d'une valeur d'un caractère (rappel du 1er semestre).
Définitons et exemples de calculs des fréquences conjointes,
marginales, conditionnelles associées à deux caractères qualitatifs, ou
à des caractères quantitatifs lorsqu'on a divisé l'étendue en
intervalles.
Document projeté
(pages 1-17).
Vocabulaire.
3. (4 fev)
Relations entre effectifs margianux ou fréquences marginales et
fréquences conditionnelles, exemple avec le tableau étudiant (effectif
des filles).
Notion d'évènement, exemples, fréquence d'un évènement, fréquence d'un
évènement
conditionné à un autre ; Indépendance entre deux évènements :
définition informelle, 1ère approche quantitative (f
E|F / f
E
≈ 1).
Document projeté (format pour
impression plus bas).
Vocabulaire.
4.
(11 fev) Représentation graphique des fréquences et des fréquences
conditionnelles, observation graphique de l'indépendance.
Algèbre
des évènements, décomposition de l'évènement certain en évènements
disjoints et calculs d'effectifs ou de fréquences par conditionnement.
Ex. fréquence des filles en filière Droit avec les données du document
projeté.
Document projeté
: celui du cours 3.
5. (18 fev) Rappel
: 3 formules de calcul avec les fréquences conditionnelles (calcul par
conditionnement, lien entre f
E et F, f
E|F et f
F|E,
formule de Bayes).
Interprétation probabiliste d'une fréquence : rencontre ou choix d'un
individu au hasard (point de vue du cabinet médical ou de l'institut de
sondage), vocabulaire couramment employé (hasard, probable, risque,
chance), un exemple : connaissance statistique de la population en aide
au diagnostique a priori de l'hépatite C par le médecin, diagnostique
par la recherche d'évènements fortement liés.
Exercice 1
de l'
interrogation de mars 2010
(calculs avec les fréquences conditionnelles).
6.
(25 fev) Définition de l'indépendance/liaison de deux variables
qualitatives ou quantitatives (exemple pathologique : individu
déterminé par la valeur d'un caractère → éviction des valeurs ou
intervalle de valeurs dont l'effectif est trop faible).
Rappel (1er semestre) : Résumé par une valeur d'une
variable qualitative (valeur modale ou multi-modale, ex. localité de la
résidence principale) ou quantitative (médiane, moyenne), dispertion
(écart inter-quartile, écart type). Valeur modale, médiane, moyenne
conditionée à un évènement.
Lecture : fréquence d'un
caractère, mode, médiane, moyenne conditionnelle dans des extraits de
publications.
7.
(11 mars, 3H) Rappel : Définition de la liaison/indépendance entre deux
évènements E,F (cas extrème : sachant F, E est certain ou impossible,
intervalle de valeurs pour le quotient f
E|F/f
E:
[0,1/f
E], lecture d'une valeur (exemple : f
E|F/f
E=1.5
→ "sachant F, E est 1,5 fois plus probable ou a 50% de chance en plus
de se produire") ; liaison/indépendance entre une variable X (ou
caractère) et un évènement F (via les évènements E définis en terme de
la variable X sous la condition n
E suffisamment grand),
liaison/indépendance entre deux variables X,Y.
Observation d'une liaison entre une variable X et un évènement F en
comparant le résumé de X pour la population entière (valeur modale dans
le cas qualitatif, moyenne ou médiane dans le cas quantitatif et
dispersion) au résumé de X conditionné à F (résumé de X pour la
sous-population déterminée par F).
Etude de la liaison de deux variables quantitatives X,Y par le
coefficient de corrélation linéaire r(X,Y), tendance (Y croît
avec X ou décroît suivant que r est positif ou négatif), représentation
graphique : nuage de points et droite de régression.
Document projeté
avec commentaires :
résumés
conditionnels d'une variable,
liaison
et coefficient de corrélation de deux variables quantitatives.
Lecture :
Galton, Pearson et la régression linéaire sur wikipedia.
8. (18 mars) Rappel
: mesure d'une liaison entre deux caractères quantitatifs X,Y par le
coefficient de corrélation linéaire r(X,Y), interprétation comme
tendance : (X-Moy(X))/σ
X=r(X,Y)(Y-Moy(Y))/σ
Y+Reste,
Moy(Reste)=0, σ
Reste=sqrt(1-r
2) ; cas extrème :
liaison déterministe si r=1 où r=-1.
Droite de régression : celle d'équation y=ax+b où a et b sont choisit
de sorte que la variable Y-aX-b soit de moyenne nulle et d'écart-type
minimal. On écrit Y=aX+b+Reste ; formules pour a et b. Interprétation
géométrique : la droite passe par le centre du nuage de points
(Moy(X),Moy(Y)) et est de pente minimisant la dispersion du nuage de
points par rapport à la droite. Formule pour l'écart-type du reste : σ
Reste=sqrt(1-r
2)σ
Y.
Cas extrème : r
2=1 ce qui équivaut à ce que Reste soit
constant égal à 0 donc à ce que tous les points soient sur la droite de
régression ; r
2=0 : la droite de régression ne rend compte
d'aucune liaison.
Documents projetés
:
publication
du ministère de l'agriculture canadien,
feuille
de TD 4 de 2009-10 et document du cours 7.
9. Qualité
de
l'estimation y=aX+b donné par la régression linéaire : a t-on
Moy(Y|X)=aX+b ? exemple avec le document projeté ; transformation des
variables ("chgt de variable") et régression linéaire :
f(Y)=a*g(X)+b+Reste où f et g sont des fonctions numériques choisies a
priori ; exemples.
Document projeté.
Echantillons d'une population, fluctuation des fréquences observée dans
les échantillons, intervalle de confiance. L'indépendance de deux
caractères quantitatifs observée dans une population s'observe t-elle
dans un petit échantillon ? Utilisation d'un échantillon pour
l'estimation d'une fréquence (institut de sondage) ou d'une mesure
(coopératives agricoles).
Document projeté.
10. Réponses aux questions.