1.
(22 jan)
Présentation du cours : page web du cours, exemples de documents publiés.
Rappel du 1er semestre : vocabulaire, qq objets (voir
document projeté).
Quelques
objectifs de la Statistique descriptive (résumer les données
brutes, distinguer "ce qu'il y a à voir", comparer des populations ,
modéliser la population). Quelques objectifs de la statistique
inférentielle : Approximer avec un échantillon, modéliser une
population.
Remarques sur les sources de données utilisées dans le cours et les TD : données réelles, simulations. Logiciels
Lecture :
Extrait de publications de l'INSEE ou d'autres organismes avec des objets au programme du cours.
En attente : illustration de "ce qu'il y a à voir"
2. (29 jan)
Agrégation des données brutes pour 2 caractères (ou variables) ou plus
: tableau d'effectifs, fréquences (conjoints, marginals),
représentation graphique. Intérêt d'un tableau de fréquences :
comparaison de deux populations de taille différente. Vocabulaire :
données brutes ou série statistique ; tableau d'effectif ou tableau de
contingence ou distribution des valeurs. Notations N, n
x,f
x,n
x,y,f
x,y Relation N = Σ
x n
x= Σ
x,y n
x,y ; 1=Σ
x f
x= Σ
x,y f
x,y.
Une première fréquence conditionnelle (fréquence des filles en licence de Droit dans le tableau de l'Insee). Cf le
Document projeté.
3. (5 fev) Classe (= une partie des valeurs prises par une variable X ou une famille de variables (X
1,...,X
n)),
évènement (= un ensemble d'éventualités Cf langage des probalilités,
souvent exprimé par une propriété des valeurs prises par une famille de
variables), exemples ; evt certain Ω, evt impossible, négation de E : non(E), et, ou ;
effectif n
E et fréquence f
E d'un evt E. Fréquence conditionnelle f
E|F, exemple avec le
tableau des effectifs étudiants, ex de calculs.
4. (12 fev)
Langage des probabilités dans les rapports publics. Probabilité
calculée à partir d'un modèle (ex. chance de succès de la mise en
orbite d'un satélite, risque de collision d'une météorite avec la
terre) ou issue d'une observation statistique (ex. probabilité d'avoir
trouvé un emploi dans les 6 mois suivant la fin de la formation, risque
de défaillance d'une puce électronique) ; dans le second cas on a
P(E):=f
E, P(E|F):=f
E|F. Extraits de tels rapports, formalisation d'un extrait de texte.
Calcul d'un effectif et d'une fréquence (ou d'une probabilité) par conditionnement : f
E=f
E|F×f
F +f
E|nonF×f
nonF ; plus généralement f
E=f
E|F1×f
F1 + ... + f
E|Fn×f
Fn sous l'hypothèse que chaque individu est concerné par un et un seul des evts F
i ; exemple avec le tableau des effectifs étudiants : calcul de la proportion de filles à l'université.
Documents projetés :
extrait du
rapport 2007-2008 de l'ONPES, extrait du document "Les jeunes et la sécurité routière" de l'OMS (2007).
5. (19 fev) Exercices :
retour sur le calcul de la proportion de filles à l'Université, formalisation d'extrait de textes,
exercice 5 de la feuille 1 de TD. On utilise la "formule de Bayes" : f
E|F×f
F=f
F|E×f
E (=f
EetF).
Cours : Liaison entre évènements. E est l'evt certain si f
E=1. E est l'evt impossible si f
E=0. E détermine F ou encore E rend F certain si f
F|E=1.
Affaiblissement : E détermine pratiquement F si f
F|E≈1 (concrètement pour ce cours : entre 0.9 et 1 mais ça dépend du contexte)
F est indépendant de E si - informellement : la réalisation de F
n'apporte pas d'information sur la réalisation de E - formellement : si
f
F|E=f
F. Affaiblissement : F est pratiquement indépendant de E si f
F|E/f
F≈1 (concrètement pour ce cours : entre 0.9 et 1.1 mais ça dépend du contexte).
Liaison entre E et F si f
F|E/f
F est loin de 1 (concrètement pour ce cours <0.9 ou > 1.1). Discours : E rend F 2 fois plus probable (f
F|E/f
F=2) ; E diminue la probabilité de F de 20% (f
F|E/f
F=0.8).
6. (5 mar) Rappel indépendance/liaison entre deux evts E,F via le nombre q= f
E|F/f
E = f
EetF/f
E×f
F = f
F|E/f
F.
La liaision est symétrique en E te F : si E rend F 20% plus probable
alors F rend aussi E 20% plus probable. La liaison est d'autant plus
forte que q est loin de 1. Cas extrème : q=0 (E et F sont disjoints ou
exclusifs) ; q=1/f
E (F rend E certain) ; q=1/f
F (E rend F certain). On a toujours 0≤q≤min{1/f
E,1/f
F} et même 1-f
E-f
F≤q (Utiliser la "formule de Poincaré" : f
EouF = f
E + f
F - f
EetF).
Déf. Supposons q>>1 (F rend E significativement plus probable); la liaison entre E et F est significative pour E si f
F|E>>0 (par ex. >0.1 mais cela dépend du contexte), d'autant plus significative pour E que f
F|E
est grand. La liaison peut être significative pour l'un des evts sans
l'être pour l'autre. Exemple : test pour le diagnostic d'une maladie
(Cf feuille de TD 2).
q<<1 : on se ramène à q>>1 en considérant la liaison entre E et non(F) ou entre non(E) et F suivant le contexte.
Déf. On observe une liaison entre un caractère X et un evt E s'il existe un evt F exprimé en terme de X, significatif (ie f
F>>0)
et lié à E. Liaison entre deux caractères X et Y s'il existe des evts E
exprimé en terme de X et F exprimé en terme de Y, significatifs (f
E et f
F>>0) et liés entre eux.
7. (12 mar, 1H) Liaison entre deux caractères qualitatifs X,Y en terme des nombres q
x,y=f
x,y/f
x×f
y, x et y décrivant les valeurs prises par X et Y (sous l'hypothèse f
x,f
y>>0 pour tous les x,y) ; Mesure de la liaison entre deux caractères qualitatifs X,Y par le nombre χ
2(X,Y)=N×∑
x,y(q
x,y-1)
2f
xf
y ; On a 0 ≤ χ
2
≤ N×min{r-1,s-1} où r et s sont le nombre de valeurs prises par X et Y,
interprétation des valeurs extrèmes en terme de liaison, exemple de
calcul.
8. (19 mar, 1H) Rappel χ
2, Liaison entre un caractère quantitatif et un caractère qualitatif
via les résumés conditionnels et le coefficient de corrélation. Cf
résumé de cours de 2011-12.
Document projeté (ou pas) :
résumé conditionnel dans quelques publications de l'INSEE.
9. (25 mar) Liaison entre deux caractères
quantitatifs X,Y via le coefficient de corrélation linéaire r(X,Y) ; régression linéaire. Cf
résumé de cours de 2011-12.
Document projeté :
quelques nuages de points avec le coefficient de corrélation linéaire associé, droite de régression, résidus. Autre document :
analyse du résidu, autre modèle de régression.
10. (2 avr) Droite
de régression, centre du nuage de points ; qualité de la régression
linéaire suivant trois critères : R est petit devant Y (σ
R/σ
Y=√(1-r
2) est proche de 0) ; (2) R est indépendant de X ; (3) intervalle de confiance sur r (Cf ci-dessous) et qualité de la prédiction.
Document projeté.
Lecture :
animation autour de la droite de régression sur la
page du cours Statistique générale, Agrocampus Ouest
Echantillonnage : échantillon de taille n d'une population T de taille
N = ensemble de n individus choisis au hasard (et sans biais) parmis
les individus de T ; deux types d'échantillon : (1) les individus sont
choisis sans répétition (S est une sous-population de T), (2) les
individus sont choisis avec répétition (et alors on peut avoir n>N).
Pour E un evt ou X un caractère quantitatif on veut comparer f
E à f
E|S et Moy(X) à Moy(X|S) ; f
E|S et Moy(X|S) dépendent de S, ce sont des variables aléatoires. Si l'échantillon S est choisi avec répétition on a : Moy(f
E|S, S décrivant tous les échantillons de taille n)=f
E , σ(f
E|S)=√(f
E(1-f
E))/√n ; idem pour Moy(X|S) ; commentaire : f
E|S est d'autant plus proche de f
E que n est grand. Intervalle de confiance pour f
E|S et Moy(X|S) sous l'hypothèse n suffisamment grand et f
E loin de 0 et de 1.
Document projeté.
Lecture :
Sondage d'opinion sur Wikipedia.