Une distribution d’échantillonnage est une distribution de probabilité d’une statistique obtenue à partir d’un grand nombre d’échantillons prélevés dans une population spécifique. La distribution d’échantillonnage d’une population donnée est la distribution des fréquences d’une série de résultats différents qui pourraient éventuellement se produire pour une statistique de population.

Comprendre la distribution d’échantillonnage

De nombreuses données traitées et utilisées par les universitaires, les statisticiens, les chercheurs, le marketing, les analystes, etc. sont en fait des échantillons, et non des populations. Un échantillon est un sous-ensemble d’une population. Par exemple, un chercheur en médecine qui veut comparer le poids moyen de tous les enfants nés en Amérique du Nord entre 1995 et 2005 avec ceux nés en Amérique du Sud au cours de la même période ne peut pas, dans un délai raisonnable, extraire des données pour l’ensemble de la population de plus d’un million de naissances sur dix ans. Au lieu de cela, il n’utilisera que le poids de, disons, 100 enfants sur chaque continent pour tirer une conclusion. Le poids de 200 enfants utilisé est l’échantillon et le poids moyen calculé est la moyenne de l’échantillon.

Supposons maintenant qu’au lieu de prélever un seul échantillon de 100 poids d’enfants sur chaque continent, le chercheur médical prélève à plusieurs reprises des échantillons aléatoires dans la population générale et en fait la moyenne pour chaque groupe d’échantillons. Ainsi, pour l’Amérique du Nord, il extrait les données de 100 poids de nourrissons enregistrés aux États-Unis, au Canada et au Mexique comme suit : quatre 100 échantillons provenant d’hôpitaux sélectionnés aux États-Unis, cinq 70 échantillons au Canada et trois 150 enregistrements au Mexique, pour un total de 1200 poids de nourrissons regroupés en 12 groupes. Elle recueille également un échantillon de 100 poids de naissance dans chacun des 12 pays d’Amérique du Sud.

Le poids moyen calculé pour chaque ensemble d’échantillons est la distribution de la moyenne de l’échantillon. Non seulement la moyenne peut être calculée à partir d’un échantillon. D’autres statistiques, telles que l’écart-type, la variance, la proportion et la fourchette, peuvent être calculées à partir des données de l’échantillon. L’écart-type et la variance mesurent la variabilité de la distribution de l’échantillonnage.

Le nombre d’observations dans une population, le nombre d’observations dans un échantillon et la procédure utilisée pour tirer les ensembles d’échantillons déterminent la variabilité d’une distribution d’échantillonnage. L’écart-type d’une distribution d’échantillonnage est appelé l’erreur standard. Alors que la moyenne d’une distribution d’échantillonnage est égale à la moyenne de la population, l’erreur standard dépend de l’écart-type de la population, de la taille de la population et de la taille de l’échantillon.

Savoir à quel point la moyenne de chacun des ensembles d’échantillons est différente des autres et de la moyenne de la population donnera une indication de la proximité de la moyenne de l’échantillon par rapport à la moyenne de la population. L’erreur type de la distribution de l’échantillon diminue à mesure que la taille de l’échantillon augmente.

Considérations particulières

Une population ou une série de numéros d’échantillons aura une distribution normale. Toutefois, comme une distribution d’échantillonnage comprend plusieurs séries d’observations, elle n’aura pas nécessairement la forme d’une courbe en cloche.

Si l’on suit notre exemple, le poids moyen de la population d’enfants en Amérique du Nord et en Amérique du Sud a une distribution normale parce que certains enfants seront en sous-poids (en dessous de la moyenne) ou en surpoids (au-dessus de la moyenne), la plupart des enfants se situant entre les deux (autour de la moyenne). Si le poids moyen des nourrissons en Amérique du Nord est de sept livres, le poids moyen de l’échantillon dans chacune des 12 séries d’observations enregistrées pour l’Amérique du Nord sera également proche de sept livres.

Toutefois, si vous tracez le graphique de chacune des moyennes calculées dans chacun des 1 200 groupes d’échantillons, la forme résultante peut donner lieu à une distribution uniforme, mais il est difficile de prévoir avec certitude quelle sera la forme réelle. Plus le chercheur utilise d’échantillons provenant d’une population de plus d’un million de chiffres de poids, plus le graphique commencera à former une distribution normale.