1.
(4 fev)
Présentation du cours : page web du cours, exemples de documents publiés.
Rappel du 1er semestre : vocabulaire, qq objets (voir
document projeté).
Quelques
objectifs de la Statistique descriptive (résumer les données
brutes, distinguer "ce qu'il y a à voir", comparer des populations ,
modéliser la population). Quelques objectifs de la statistique
inférentielle : Approximer avec un échantillon, modéliser une
population.
Remarques sur les sources de données utilisées dans le cours et les TD : données réelles, simulations. Logiciels
Lecture :
Extrait de publications de l'INSEE ou d'autres organismes avec des objets au programme du cours.
En attente : illustration de "ce qu'il y a à voir"
2. (11 fev)
Agrégation des données brutes pour 2 caractères (ou variables) X,Y ou plus
: tableau d'effectifs, fréquences (conjoints, marginals). Vocabulaire :
données brutes ou série statistique ; tableau d'effectif ou tableau de
contingence ou distribution des valeurs. Notations N, n
x ou n
X=x, f
x,n
x,y (ou n
X=x,Y=y), f
x,y Relation N = Σ
x n
x= Σ
x,y n
x,y ; 1=Σ
x f
x= Σ
x,y f
x,y.
Une première fréquence conditionnelle (fréquence des filles en licence de Droit dans le tableau de l'Insee). Cf le
Document projeté.
3. (17 fev)
Rappel : information sur une population via des caractères X,Y,... ;
information statistique et non sur un individu particulier (information
"people") : elle n'est pas modifiée si on enlève de la population un
individu particulier (ex. médiane des salaires en France).
Classe (= une partie des valeurs prises par une variable X ou une famille de variables (X
1,...,X
n)),
évènement (= un ensemble d'éventualités Cf langage des probalilités,
souvent exprimé par une propriété des valeurs prises par une famille de
variables), exemples ; sous population S
E déterminée par un evt E, evt certain Ω, evt impossible, négation de E : E
c (evt contraire), E et F, E ou F ;
effectif n
E et fréquence f
E d'un evt E ; relations n
Ω=N, f
Ω=1, f
Ec=1-f
E, n
EouF=n
E+n
F-n
EetF, idem pour f
EouF. Fréquence conditionnelle f
E|F (fréquence de E dans la sous pop. S
F) ; relations n
EetF = f
E|F×n
F, f
EetF = f
E|F×f
F.
Probabilité d'un evt E (mesure de l'incertitude sur E) ; mesure
calculée à partir d'un modèle (ex. risque de collision d'une météorite
avec la
terre) ou issue d'une observation statistique (ex. probabilité qu'un
composant électronique soit défectueux) ou un mélange des deux. En
statistique descriptive : Probabilité qu'un evt E soit réalisé pour un
individu choisi au hasard dans la population P(E):=f
E.
4. (4 mar) Probabilité conditionnelle P(E|F) calculée comme f
E|F. Formule de Bayes f
E|F×f
F = f
F|E×f
E (= f
EetF),
idem avec probabilité à la place de fréquence ; exemple construction du
slogan "Fumer double le risque de maladie cardiovasculaire" avec la
fréquence des fumeurs observée chez les malades du coeur et la
fréquence estimée (par sondage par ex.) des fumeurs dans la population
entière ; calcul f
Malade|Fumeur=f
Fumeur|Malade×f
Malade/f
Fumeur, discours "Fumer multiplie les risques d'être malade par le nombre f
Malade/f
Fumeur" lorsque la population de référence est la population entière ; comparaison de f
Malade|Fumeur avec f
Malade | nonFumeur (de sorte que la population de référence soit celle des non-fumeurs) : calcul par conditionnement f
E= f
E|F×f
F+f
E|nonF×f
nonF d'où une expression de f
Malade | nonFumeur. Exemples numériques (voir TD). Généralisation du calcul par conditionnement f
E=f
E|F1×f
F1 + ... + f
E|Fn×f
Fn sous l'hypothèse que chaque individu est concerné par un et un seul des evts F
i ; exemple avec le calcul de la proportion de filles à l'université avec le tableau des effectifs étudiants, Cf le
document projeté.
Lecture : le langage des probabilités dans les rapports publics avec cet
extrait du
rapport 2007-2008 de l'ONPES
5. (11 mar) Indépendance/liaison entre deux evts E,F via le nombre q=q
E,F= f
EetF/(f
E×f
F) = f
E|F/f
E = f
F|E/f
F
et discours associé : "F rend E q fois plus probable" ou "F augmente
les chances de E de 100×(q-1) %" avec comme population de référence la
population entière. Si q est proche de 1 (notation q≈1, concrètement
pour ce cours : q entre 0.9 et 1.1 mais ça dépend du contexte), on dit
qu'on observe pratiquement l'indépendance entre E et F dans la
population étudiée (l'observation dépend de la population) ; si q est
loin de 1 on dit qu'on observe une liaison entre E et F et la liaison
est quantifiée par q. Exemple numérique avec la fréqeuntation du
restaurant universitaire d'un campus science (voir TD). Cas extrème :
q=0 (E et F sont disjoints ou
exclusifs) ; q=1/f
E (F rend E certain) ; q=1/f
F (E rend F certain). On a toujours 0≤q≤min{1/f
E,1/f
F}. Supposons q>>1 (F rend E significativement plus probable); la liaison entre E et F est significative pour E si f
F|E>>0
(par ex. >0.1 mais cela dépend du contexte) ; exemple avec le
diagnostic d'une maladie E par un test F : qualité du test.
Accentuation de l'observation d'une liaison en formant le quotient f
E|F/f
E| nonF plutôt que f
E|F/f
E ; ces deux nbres sont proches si f
F est proche de 0
On observe une liaison entre un caractère X et un evt F s'il existe un evt E exprimé en terme de X, significatif (ie f
E>>0)
et lié à E. Liaison entre deux caractères X et Y s'il existe des evts E
exprimé en terme de X et F exprimé en terme de Y, significatifs (f
E et f
F>>0) et liés entre eux.
6. (18 mar) Rappel
: résumé d'un caractère X = (valeur centrale, mesure de la dispersion),
cas d'une variable qualitative (mode, une représentation graphique des
fréquences telle un camembert), cas d'une variable quantitative
(médiane, intervalle interquartile ou ...) ou bien (moyenne, écart
type). Résumé conditionnel d'un caractère X conditionnellement à un
évènement E, noté Res(X|E) ; Res(X|E)≈Res(X) si X est pratiquement
indépendant de E, application à l'observation d'une liaison entre X et
E, plus généralement entre X et une variable qualitative Y (mais
l'observation de Res(X|E)≈Res(X) ne suffit pas à observer l'absence de
liaison). Exemples de résumés conditionnels dans les rapports publics
et observation de liaisons avec
ce document projeté.
Mesure de la liaison entre deux caractères X,Y par le nombre χ
2(X,Y)=N×∑
x,y(q
x,y-1)
2f
xf
y ; On a 0 ≤ χ
2
≤ N×min{r-1,s-1} où r et s sont les nombres de valeurs prises par X et Y,
interprétation des valeurs extrèmes.
Lectures :
diagramme circulaire sur Wikipedia
7. (25 mar) Organisation du calcul du χ
2
via le tableau des effectifs conjoints, interprétation des valeurs
extremes 0 (stricte indépendance) et N×min{r-1,s-1} (l'un des
caractères est une fonction de l'autre), exemples de calculs avec des
tableaux d'effectifs. Rq : le χ
2 est plutôt utilisé en
statistique inférentielle (test de l'hypothèse d'indépendance).
Moyenne d'un caractère quantitatif conditionnellement à un caractère
qualitatif, calcul par conditionnement d'une moyenne, variance intra et
inter-groupe, coefficient de corrélation η
2X|Y∈[0,1], interprétation des valeurs extrèmes 0 et 1, cf le
résumé de cours de 2011-12.
Lectures : le
test du χ2 sur le blog Alea
8. (1 avr) Coefficient de correlation linéaire entre deux caractères
quantitatifs, régression linéaire
. Cf
résumé de cours de 2011-12.