La différence entre un sondage sur 100 personnes, 1000, ou 1 million ?

Intervalle de confiance et de fluctuation

La notion d’intervalle de confiance et de fluctuation est une leçon abordée en seconde générale. C’est pour moi l’une des leçons les plus intéressantes, car elle apporte réellement un aspect concret dans le sondage. Pas seulement d’ailleurs. Vérifier si une roulette est truquée ou une situation anormale. On fait par exemple des calculs avec la population chinoise où on explique la politique de l’enfant unique.

La leçon est souvent mal comprise par les élèves, car ils ne savent pas lorsqu’ils sont dans un cas ou dans l’autre. Les deux formules sont présentées de la façon suivante :

Intervalle de fluctuation :

\[[ p – {1 \over \sqrt{n}}; p + {1 \over \sqrt{n}}]\]

Intervalle de confiance :

\[[ f – {1 \over \sqrt{n}}; f + {1 \over \sqrt{n}}]\]
  • p correspond à une probabilité théorique,
  • f correspond à une probabilité obtenue au niveau de l’échantillon,
  • Cet échantillon noté n doit être supérieur à 25. Un sondage réalisé sur trois personnes n’a aucun sens.

On utilise l’intervalle de fluctuation pour vérifier si une situation est correcte. L’intervalle de confiance pour faire une prédiction.

La pièce de monnaie

Prenons le cas d’une pièce de monnaie. La probabilité d’obtenir pile ou face est de 0.5. Si on fait 50 tirages, on peut écrire l’intervalle de fluctuation de la façon suivante :

\[ [0.5 – {1 \over \sqrt{50}}; 0.5 + {1 \over \sqrt{50}}] soit [0.35;0.64]\]

Cet intervalle est sûr à 95%. Tout lancer de pièce de monnaie devrait donner des probabilités qui appartiennent à cet intervalle dans 95% des cas. Imaginons désormais que lors de 50 tirages avec une pièce de monnaie, j’obtienne une probabilité de pile de 0.3. Cela peut signifier deux choses. Je suis dans le 5% des cas où j’ai fait une série de face très importante. Cela ne devrait pas arriver, mais c’est la part de hasard. Le cas le plus probable, c’est qu’en fait la pièce soit truquée. L’intervalle de fluctuation va être réalisé pour décrypter une situation, trouver une éventuelle anomalie dans une chaîne de production.

Un sondage pour une élection.

On fait maintenant un sondage avant une élection quelconque. Les individus vont donner des intentions de votes, on va exprimer plutôt un pourcentage à la place d’une probabilité ce qui est pourtant équivalent. Imaginons désormais qu’un candidat recueille 59% des intentions de vote, on a une probabilité de 59/100=0.59, il s’agit de f, la probabilité trouvée dans l’échantillon.

Imaginons que nous avons obtenu 59% dans trois échantillons, un de 100 personnes, un de 1000 personnes, un de 10000 personnes. Les intervalles de confiances respectifs sont :

Pour 100 personnes

\[ [0.591 – {1 \over \sqrt{100}}; 0.59 + {1 \over \sqrt{100}}] soit [0.49;0.69]\]

Pour 1000 personnes

\[ [0.591 – {1 \over \sqrt{1000}}; 0.59 + {1 \over \sqrt{1000}}] soit [0.56;0.62]\]

Pour 10000 personnes

\[ [0.591 – {1 \over \sqrt{10000}}; 0.59 + {1 \over \sqrt{10000}}] soit [0.589;0.591]\]

Dans les trois cas, on peut supposer que le candidat va l’emporter, on remarquera tout de même qu’on est limite sur le cas à 100 personnes puisqu’on est un peu en dessous de 50%. Pour 1000 et 1 million de personnes, il n’y a pas d’ambiguïté. Le sondage réalisé sur 100 personnes n’est pas assez précis, entre la borne inférieure et la borne supérieure, on a 20% d’écart. Pour le sondage sur 1000 personnes, on ramène l’écart entre les deux bornes à 6%, pour celui sur 1 millions, plus que 0.2%, si bien que dans ce dernier cas, on a la quasi certitude que le candidat a gagné (à 95%) et qu’il aura un résultat d’environ 59%. Il s’agit ici d’une logique, plus l’échantillon est important plus on se rapproche du résultat théorique ou l’on sait que le résultat définitif se rapprochera du résultat relevé dans l’échantillon.

Dans un monde parfait, un sondage pour tout le monde.

L’idéal donc serait de faire un sondage sur l’ensemble des électeurs, pour obtenir le résultat de l’élection ! Il est nécessaire toutefois de ramener un sondage à une réalité bien pratique, son coût, son temps. En effet, interroger des gens demande du temps, des ressources. Vous n’avez pas le temps d’interroger un million de personnes pendant une période électorale où il est nécessaire de multiplier les sondages, vous n’avez pas les moyens de financer une équipe pour interroger un million de personnes. Même si un écart de 6% peu paraître important, il permet néanmoins d’avoir l’information qui nous intéresse réellement, savoir si le candidat va l’emporter.