Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Rozkład próbkowania jest rozkładem prawdopodobieństwa statystycznego otrzymanego poprzez dużą liczbę próbek pobranych z określonej populacji. Rozkład próbkowania danej populacji jest rozkładem częstotliwości zakresu różnych wyników, które mogłyby ewentualnie wystąpić w statystyce populacji.

Zrozumienie rozkładu pobierania próbek

Wiele danych przetwarzanych i wykorzystywanych przez naukowców, statystyków, badaczy, marketingowców, analityków itp. to w rzeczywistości próbki, a nie populacje. Próba jest podzbiorem populacji, a nie populacją. Na przykład badacz medyczny, który chce porównać średnią wagę wszystkich dzieci urodzonych w Ameryce Północnej w latach 1995-2005 z tymi, które urodziły się w Ameryce Południowej w tym samym okresie czasu, nie może w rozsądnym okresie czasu uzyskać danych dla całej populacji liczącej ponad milion urodzeń w ciągu dziesięciu lat. Zamiast tego wykorzysta on tylko wagę, powiedzmy, 100 dzieci na każdym kontynencie, aby wyciągnąć wnioski. Waga 200 wykorzystywanych dzieci jest próbą, a obliczona średnia waga jest średnią z próby.

Załóżmy teraz, że zamiast pobierać tylko jedną próbkę 100 wag dzieci z każdego kontynentu, badacz medyczny wielokrotnie pobiera losowe próby z ogólnej populacji i uśrednia próbę dla każdej grupy prób. Tak więc w przypadku Ameryki Północnej wyodrębnia on dane ze 100 wag dla niemowląt zarejestrowanych w Stanach Zjednoczonych, Kanadzie i Meksyku w następujący sposób: cztery 100 próbek z wybranych szpitali w Stanach Zjednoczonych, pięć 70 próbek z Kanady i trzy 150 zapisów z Meksyku, w sumie 1200 wag dla niemowląt pogrupowanych w 12 grup. Gromadzi ona również próbkę danych o 100 wagach urodzeniowych z każdego z 12 krajów Ameryki Południowej.

Średnia waga obliczona dla każdego zestawu próbek jest rozkładem próbkowania średniej. Nie tylko średnia może być obliczona z próby. Inne statystyki, takie jak odchylenie standardowe, wariancja, proporcja i zakres, mogą być obliczane na podstawie danych z próby. Odchylenie standardowe i wariancja mierzą zmienność rozkładu pobierania próbek.

Liczba obserwacji w populacji, liczba obserwacji w próbie oraz procedura stosowana do losowania zestawów prób określają zmienność rozkładu pobierania prób. Odchylenie standardowe rozkładu pobierania próbek jest nazywane błędem standardowym. Podczas gdy średnia z rozkładu pobierania próbek jest równa średniej z populacji, błąd standardowy zależy od odchylenia standardowego populacji, wielkości populacji oraz wielkości próby.

Wiedza o tym, jak różni się średnia każdego z zestawów próbek od innych oraz średnia z populacji daje wskazanie, jak blisko średnia z populacji jest do średniej z populacji. Błąd standardowy rozkładu próby maleje wraz ze wzrostem liczebności próby.

Szczególne względy

Populacja lub seria numerów próbek będzie miała rozkład normalny. Jednakże ponieważ rozmieszczenie próby składa się z kilku zestawów obserwacji, niekoniecznie będzie miało kształt krzywej dzwonka.

Idąc za naszym przykładem, średnia waga populacji dzieci w Ameryce Północnej i Południowej ma rozkład normalny, ponieważ niektóre dzieci będą miały niedowagę (poniżej średniej) lub nadwagę (powyżej średniej), a większość dzieci znajdzie się pomiędzy nimi (około średniej). Jeżeli średnia waga niemowląt w Ameryce Północnej wynosi siedem funtów, średnia waga w każdej z 12 serii obserwacji w próbie zarejestrowanej dla Ameryki Północnej będzie również zbliżona do siedmiu funtów.

Jednakże, jeśli wykreślić wykres każdej ze średnich obliczonych w każdej z 1200 grup próbek, otrzymany kształt może prowadzić do jednolitego rozkładu, ale trudno jest przewidzieć z całą pewnością, jaki będzie rzeczywisty kształt. Im więcej próbek badacze używają próbek z populacji liczącej ponad milion cyfr wagi, tym bardziej wykres zacznie tworzyć rozkład normalny.

Języki

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.