2:06
Autrement dit la probabilité que Xi vaille 1 vaut p,
et la probabilité que Xi vaut 0 vaut 1 moins p.
Une petite remarque avant de poursuivre : quand vous effectuez un sondage,
on le fait sans remise, c'est-à-dire qu'on n'interroge pas deux fois le même
individu, et à cause de ça les Xi sont a priori dépendants.
En fait si vous avez un électorat de grande taille la différence entre un
tirage avec ou sans remise est négligeable, et c'est ce que vous avez
vu au début du cours et des exercices, quand vous avez étudié les urnes, on a vu
que quand on a une grande population, la différence entre les deux est négligeable.
Donc on va laisser de côté ce problème qui n'est pas important.
Alors, revenons au problème central qui nous intéresse, c'est comment
estimer le paramètre p qui est inconnu, à partir des observations X1, X2, Xn.
3:10
Sn étant simplement la somme des variables X1 plus X2...
jusqu'à Xn.
Autrement dit, pour chaque petit oméga, pour chaque échantillon,
vous comptez le nombre de fois où les individus ont
voté pour A et vous divisez par le nombre total d'individus interrogés qui est n.
Là aussi je fais une petite remarque avant de poursuivre : vous pouvez vous demander
si l'ordre des réponses va influer sur l'information qu'on pourrait avoir sur p.
Intuitivement on peut penser que c'est pas le cas, que en faisant juste cette somme
et en divisant par n vous avez toute l'information qu'il vous faut, et pour
donner corps à cette intuition vous pouvez vérifier que si vous regardez la loi
de probabilité de X1 etc., Xn, sachant que Sn vaut k, ça ne dépend pas de p.
En fait, on peut montrer que c'est tout simplement la loi uniforme sur les
suites X1 etc Xn qui contiennent k1 et n moins k0,
et il y a là ce nombre-là de suites.
Donc pour résumer, Sn sur n contient
l'information qui nous intéresse, et nous pouvons regarder ses propriétés de base.
La première chose c'est qu'on dit, dans le langage des statistiques, que
cet estimateur est sans biais, car si vous regardez son espérance, vous trouvez p.
Ça suit immédiatement la définition de Xn chapeau.
L'autre propriété de base c'est la loi des grands nombres qui nous assure que
asymptotiquement Xn est un estimateur correct,
parce que Xn chapeau tend, quand n tend vers l'infini,
vers p, paramètre de la loi de Bernoulli, en probabilité et presque sûrement.
5:14
puisqu'on prenait 2 500 individus interrogés.
Autrement dit, cet échantillon particulier vous donne une valeur pour Xn
chapeau, que je vais noter p chapeau n,
et qui est 1 300 divisé par 2 500, c'est-à-dire 0.52.
pn chapeau est appelé l'estimation de p.
La question qu'on se pose, c'est quelle confiance accorder à cette estimation.
6:46
Quand on l'applique à cette situation, elle nous dit que, si on regarde la
probabilité que X chapeau n moins p soit en valeur absolue plus petit que epsilon,
cette probabilité, je peux multiplier en haut et en bas par racine de n
p est racine de p(1- p) moins p des deux côtés, donc j'ai cette probabilité
qui est égale à celle-là, et là maintenant je sais que le théorème
8:02
Je prends un petit exemple numérique : si le coefficient de confiance est 1.96
on peut vérifier que la probabilité que Xn chapeau moins p soit plus petit en valeur
absolue que epsilon c'est 95 %, de l'ordre de 0.95.
Et puisque epsilon a cette forme-là,
j'ai juste inversé la formule qui relie entre a epsilon et n,
ce qu'on peut dire c'est que l'erreur commise en prenant p chapeau n comme
approximation de p ne dépassera pas, avec une probabilité environ égale à 95 %,
le seuil qui est donné par ce nombre-là.
On dit aussi que la marge d'erreur est d'environ 5 %.
9:30
Il y a plusieurs solutions pour pallier à ce problème.
La plus simple dans cet exemple c'est de remplacer racine de p(1 moins
p) par un 1/2, simplement parce que sigma p, qui est la racine
de p(1 moins p) atteint un maximum qui est 1/2, si on fait varier p entre 0 et 1.
En fait en faisant, en remplaçant cette quantité par 1/2
on ne fait qu'augmenter notre quasi-certitude.
En fait ce que je viens de vous faire est tout simplement l'esquisse de la
démonstration d'un théorème que je vais appeler le théorème de l'intervalle de
confiance pour l'estimation de p, que nous allons énoncer et commenter.
10:11
Si je me donne un nombre alpha entre 0 et 1,
qu'on va appeler le niveau de confiance de l'intervalle, dès que n est assez grand,
on verra ce que ça signifie concrètement, l'intervalle I alpha,
qui est défini comme [P chapeau n- (S alpha / 2 racine de n),
P chapeau n + (S alpha / 2 racine de n) ] [P chapeau n- (S alpha / 2 racine de n),
P chapeau n + (S alpha / 2 racine de n) ] où S alpha est donné par cette équation,
donc on regarde quand on se donne alpha, les bornes qu'on doit mettre
ici pour que l'intégrale de la densité gaussienne soit égale à alpha.
Donc cette intervalle, qu'on appelle l'intervalle de confiance de P de niveau
alpha, ce qui signifie plus précisément que, la probabilité
pour que P se trouve dans l'intervalle I alpha, est d'environ I alpha.
11:00
plusieurs remarques s'imposent après se théorème.
En partique, on a bien-sûr envie de prendre alpha proche de 1,
on peut se demander ce qui signifie n assez grand dans cet énoncé,
alors en pratique, si n est plus grand ou égal à 50,
c'est que nP et n(1- P) sont plus grands ou égaux à 5 c'est correct,
ça correspond à une bonne approximation de la gaussienne par la binomiale,
une petit détail pour simplifier un peu l'allure, on a remplacé la valeur 1.96 qui
correspondait à une marge d'erreur de 5 %, par 2, et ça c'est un petit
détail qui ne change pas grand-chose, si ce n'est la tête des intervalles.
Ainsi, l'intervalle [ P chapeau n- (1 / racine de n),
P chapeau n + (1 / racine de n) ] c'est l'intervalle de confiance de niveau 95 %.
Et si vous prenez cet intervalle-là, c'est l'intervalle de confiance de niveau 99 %.
Je continue avec les remarques.
Dans l'exemple de départ, l'intervalle de confiance,
si vous le calculez l'intervalle de confiance à 95 % pour P,
est [0.5, 0.54] En fait si vous revoyez ce que
nous avons fait précédemment, on devrait rigoureusement parler d'intervalle
de confiance de P de niveau asymptotique, car ce que nous avons vraiment montré,
si nous utilisons le théorème limite centrale, c'est que la probabilité que P
soit dans cet intervalle elle tend, quand n tend vers l'infini, vers alpha.
Autrement dit, il faudrait considérer,
ce que j'ai dit précédemment au sens asymptotique.
Fort heureusement, en pratique, l'erreur que vous commettez en prenant n fini,
de l'ordre de 50 ou plus, bien-sûr, est suffisamment petite pour que ce qu'on
a dit précédemment soit essentiellement correct, et vous donne avec une très bonne
précision, la même chose que si vous preniez n qui tend vers l'infini.
Alors j'insiste à nouveau sur le fait que l'intervalle de confiance
c'est un intervalle aléatoire, il faut bien prendre
conscience de l'interprétation qu'il faut lui donner, qui n'est pas évidente.
Par exemple, un intervalle de confiance à 95 % donnera un encadrement correct de P,
95 fois sur 100 en moyenne.
C'est comme ça qu'on peut le voir, et c'est-à-dire que,
si on pouvait répéter des estimations, prendre plusieurs fois des échantillons,
un grand nombre de fois, on se tromperait en moyenne 5 fois sur 100.
C'est ça que cela signifie.
13:31
Voici l'expérience numérique interactive que nous vous proposons,
et que je vais vous présenter brièvement, on va représenter P en fonction
de P chapeau n on va pouvoir jouer sur les deux paramètres essentiels, qui
sont le nombre de tirages, c'est-à-dire le nombre d'individus que vous sondez,
donc la taille de votre échantillon, grâce à ces boutons on va pouvoir changer
la marge d'erreur, c'est-à-dire le niveau de confiance.
Entre parenthèses, j'ai mis, à chaque fois, le niveau de confiance associé.
14:15
pouvons afficher ici une intervalle de confiance, c'est-à-dire
qu'avec 5 % de marge d'erreur, P va être contenu dans cet intervalle.
Et nous constatons que nous pouvons trancher la question fondamentale,
qui est de savoir si l'on est bien en-dessous de 50 % et qu'on peut donc,
avec une quasi-certitude, avec une marge d'erreur de 5 %,
dire que, d'après le sondage, le candidat A ne va pas être élu.
14:51
la valeur de P n chapeau vers 0.5, et vous voyez qu'à partir de 0.41,
l'intervalle de confiance, ici, se met à contenir 0.5.
Et ça continue dans toute une plage, dans tout un intervalle de valeurs de P
chapeau n on va comme ça jusqu'à 0.6.
Là on arrive au bord, 0.5 est au bord de l'intervalle.
Et ensuite, elle sort.
15:20
Donc en fait, si P n chapeau est l'intervalle de [0.41,
0.6] l'intervalle de confiance, à 50 % contient 0.5,
ce qui signifie qu'avec une marge d'erreur d'environ 5 %,
vous ne pouvez tout simplement pas savoir si P
va être inférieur strictement à 0.5 ou supérieur strictement à 0.5.
Cette situation est typique des referendum,
ou des seconds tours d'élections présidentielles,
où les scores sont proches de 50 / 50 et ce que vous pouvez vous demander,
c'est qu'est-ce qui se passe si, par exemple, j'augmente le nombre de tirages?
Si je reviens à une situation où j'étais dans le rouge, c'est-à-dire que
je ne pouvais pas trancher avec une marge d'erreur de 5
% si j'étais dans cette situation,