Rozkład próbkowania jest rozkładem prawdopodobieństwa statystycznego otrzymanego poprzez dużą liczbę próbek pobranych z określonej populacji. Rozkład próbkowania danej populacji jest rozkładem częstotliwości zakresu różnych wyników, które mogłyby ewentualnie wystąpić w statystyce populacji.

Zrozumienie rozkładu pobierania próbek

Wiele danych przetwarzanych i wykorzystywanych przez naukowców, statystyków, badaczy, marketingowców, analityków itp. to w rzeczywistości próbki, a nie populacje. Próba jest podzbiorem populacji, a nie populacją. Na przykład badacz medyczny, który chce porównać średnią wagę wszystkich dzieci urodzonych w Ameryce Północnej w latach 1995-2005 z tymi, które urodziły się w Ameryce Południowej w tym samym okresie czasu, nie może w rozsądnym okresie czasu uzyskać danych dla całej populacji liczącej ponad milion urodzeń w ciągu dziesięciu lat. Zamiast tego wykorzysta on tylko wagę, powiedzmy, 100 dzieci na każdym kontynencie, aby wyciągnąć wnioski. Waga 200 wykorzystywanych dzieci jest próbą, a obliczona średnia waga jest średnią z próby.

Załóżmy teraz, że zamiast pobierać tylko jedną próbkę 100 wag dzieci z każdego kontynentu, badacz medyczny wielokrotnie pobiera losowe próby z ogólnej populacji i uśrednia próbę dla każdej grupy prób. Tak więc w przypadku Ameryki Północnej wyodrębnia on dane ze 100 wag dla niemowląt zarejestrowanych w Stanach Zjednoczonych, Kanadzie i Meksyku w następujący sposób: cztery 100 próbek z wybranych szpitali w Stanach Zjednoczonych, pięć 70 próbek z Kanady i trzy 150 zapisów z Meksyku, w sumie 1200 wag dla niemowląt pogrupowanych w 12 grup. Gromadzi ona również próbkę danych o 100 wagach urodzeniowych z każdego z 12 krajów Ameryki Południowej.

Średnia waga obliczona dla każdego zestawu próbek jest rozkładem próbkowania średniej. Nie tylko średnia może być obliczona z próby. Inne statystyki, takie jak odchylenie standardowe, wariancja, proporcja i zakres, mogą być obliczane na podstawie danych z próby. Odchylenie standardowe i wariancja mierzą zmienność rozkładu pobierania próbek.

Liczba obserwacji w populacji, liczba obserwacji w próbie oraz procedura stosowana do losowania zestawów prób określają zmienność rozkładu pobierania prób. Odchylenie standardowe rozkładu pobierania próbek jest nazywane błędem standardowym. Podczas gdy średnia z rozkładu pobierania próbek jest równa średniej z populacji, błąd standardowy zależy od odchylenia standardowego populacji, wielkości populacji oraz wielkości próby.

Wiedza o tym, jak różni się średnia każdego z zestawów próbek od innych oraz średnia z populacji daje wskazanie, jak blisko średnia z populacji jest do średniej z populacji. Błąd standardowy rozkładu próby maleje wraz ze wzrostem liczebności próby.

Szczególne względy

Populacja lub seria numerów próbek będzie miała rozkład normalny. Jednakże ponieważ rozmieszczenie próby składa się z kilku zestawów obserwacji, niekoniecznie będzie miało kształt krzywej dzwonka.

Idąc za naszym przykładem, średnia waga populacji dzieci w Ameryce Północnej i Południowej ma rozkład normalny, ponieważ niektóre dzieci będą miały niedowagę (poniżej średniej) lub nadwagę (powyżej średniej), a większość dzieci znajdzie się pomiędzy nimi (około średniej). Jeżeli średnia waga niemowląt w Ameryce Północnej wynosi siedem funtów, średnia waga w każdej z 12 serii obserwacji w próbie zarejestrowanej dla Ameryki Północnej będzie również zbliżona do siedmiu funtów.

Jednakże, jeśli wykreślić wykres każdej ze średnich obliczonych w każdej z 1200 grup próbek, otrzymany kształt może prowadzić do jednolitego rozkładu, ale trudno jest przewidzieć z całą pewnością, jaki będzie rzeczywisty kształt. Im więcej próbek badacze używają próbek z populacji liczącej ponad milion cyfr wagi, tym bardziej wykres zacznie tworzyć rozkład normalny.