Una distribuzione di campionamento è una distribuzione di probabilità di una statistica ottenuta attraverso un gran numero di campioni prelevati da una popolazione specifica. La distribuzione di campionamento di una data popolazione è la distribuzione delle frequenze di una gamma di risultati diversi che potrebbero eventualmente verificarsi per una statistica della popolazione.

Comprendere la distribuzione del campionamento

Molti dati elaborati e utilizzati da accademici, statistici, ricercatori, marketing, analisti, ecc. sono in realtà campioni, non popolazioni. Un campione è un sottoinsieme di una popolazione. Ad esempio, un ricercatore medico che voglia confrontare il peso medio di tutti i bambini nati in Nord America dal 1995 al 2005 con quelli nati in Sud America nello stesso periodo di tempo non può, entro un periodo di tempo ragionevole, estrarre dati per l’intera popolazione di oltre un milione di nascite in dieci anni. Al contrario, utilizzerà solo il peso di, diciamo, 100 bambini di ogni continente per trarre una conclusione. Il peso di 200 bambini utilizzati è il campione e il peso medio calcolato è la media del campione.

Ora supponiamo che invece di prelevare un solo campione di 100 bambini di ogni continente, il ricercatore medico preleva ripetutamente campioni casuali dalla popolazione generale e fa la media del campione per ogni gruppo di campioni. Così, per il Nord America, estrae i dati da 100 pesi per neonati registrati negli Stati Uniti, in Canada e in Messico come segue: quattro 100 campioni da ospedali selezionati negli Stati Uniti, cinque 70 campioni dal Canada e tre 150 record dal Messico, per un totale di 1200 pesi per neonati raggruppati in 12 gruppi. Raccoglie anche un campione di dati di 100 pesi alla nascita da ciascuno dei 12 paesi sudamericani.

Il peso medio calcolato per ciascun gruppo di campioni è la distribuzione di campionamento della media. Non solo la media può essere calcolata a partire da un campione. Altre statistiche, come la deviazione standard, la varianza, la proporzione e l’intervallo, possono essere calcolate dai dati del campione. La deviazione standard e la varianza misurano la variabilità della distribuzione del campionamento.

Il numero di osservazioni in una popolazione, il numero di osservazioni in un campione e la procedura utilizzata per disegnare i set di campioni determinano la variabilità di una distribuzione di campionamento. La deviazione standard di una distribuzione di campionamento è chiamata errore standard. Mentre la media di una distribuzione di campionamento è uguale alla media della popolazione, l’errore standard dipende dalla deviazione standard della popolazione, dalla dimensione della popolazione e dalla dimensione del campione.

Sapere quanto la media di ciascuno dei set di campioni è diversa dalle altre e la media della popolazione darà un’indicazione di quanto la media del campione sia vicina alla media della popolazione. L’errore standard della distribuzione del campione diminuisce all’aumentare della dimensione del campione.

Considerazioni speciali

Una popolazione o una serie di numeri campione avrà una distribuzione normale. Tuttavia, poiché una distribuzione di campionamento comprende diverse serie di osservazioni, non avrà necessariamente la forma di una curva a campana.

Seguendo il nostro esempio, il peso medio della popolazione infantile in Nord America e Sud America ha una distribuzione normale perché alcuni bambini saranno sottopeso (sotto la media) o sovrappeso (sopra la media), con la maggior parte dei bambini nel mezzo (intorno alla media). Se il peso medio dei neonati in Nord America è di sette chili, anche il peso medio del campione in ciascuna delle 12 serie di osservazioni campionarie registrate per il Nord America sarà vicino ai sette chili.

Tuttavia, se si traccia il grafico di ciascuna delle medie calcolate in ciascuno dei 1.200 gruppi di campioni, la forma risultante può risultare in una distribuzione uniforme, ma è difficile prevedere con certezza quale sarà la forma effettiva. Più campioni il ricercatore utilizza campioni provenienti da una popolazione di oltre un milione di cifre di peso, più il grafico inizierà a formare una distribuzione normale.