Cel Hipotezy Zerowej Testowanie

Jak widzieliśmy, badania psychologiczne zazwyczaj obejmują pomiar jednej lub więcej zmiennych dla danej próby oraz obliczanie statystyk opisowych dla tej próby. Generalnie jednak celem badacza nie jest wyciągnięcie wniosków z tej próby, ale wyciągnięcie wniosków na temat populacji, z której została ona wybrana. Dlatego też naukowcy muszą wykorzystywać statystyki próby do wyciągania wniosków na temat odpowiadających im wartości w ramach populacji. Te odpowiadające im wartości w obrębie populacji nazywane są parametrami. Wyobraźmy sobie, na przykład, że badacz mierzy ilość objawów depresyjnych u każdego z pięćdziesięciu dorosłych z depresją kliniczną i oblicza średnią liczbę objawów. Badacz prawdopodobnie chce wykorzystać tę statystykę próby (średnia liczba objawów dla danej próby) do wyciągnięcia wniosków na temat odpowiadającego jej parametru populacji (średnia liczba objawów dla osób dorosłych z depresją kliniczną).

Niestety, statystyki próby nie są doskonałymi szacunkami odpowiadających im parametrów populacyjnych. Często wynika to z faktu, że w każdej statystyce od próby do próby występuje szczególna zmienność losowa. Średnia liczba symptomów depresji może wynosić 8,73 w jednej próbie osób dorosłych z depresją kliniczną, 6,45 w drugiej, a 9,44 w trzeciej, choć próby te są wybierane losowo z równoważnej populacji. Podobnie, korelacja (r Pearsona) pomiędzy dwoma zmiennymi może wynosić +.24 w jednej próbie, -.04 podczas drugiej i +.15 podczas trzeciej próby, chociaż próby te są wybierane losowo z równoważnej populacji. Ta zmienność losowa w statystyce z próby na próbę nazywana jest błędem próby. (Zauważ, że termin błąd odnosi się tutaj do zmienności losowej i nie oznacza, że ktoś popełnił błąd. nikt nie “popełnia błędu pobierania próbek”).

Jedną z konsekwencji tego jest często to, że gdy istnieje statystyczna zależność podczas próby, nie zawsze jest jasne, że istnieje statystyczna zależność w obrębie populacji. Mała różnica między dwoma środkami grupy podczas próby może wskazywać, że istnieje mała różnica między dwoma środkami grupy w ramach populacji. Ale może nawet być tak, że nie ma żadnej różnicy między środkami w ramach populacji, której różnica w ramach próby jest po prostu kwestią błędu w doborze próby. Podobnie, wartość r Pearsona wynosząca -.29 podczas próby może oznaczać, że istnieje negatywna zależność w ramach populacji. Ale może nawet być tak, że nie ma żadnej relacji w ramach populacji, której związek w ramach próby jest po prostu kwestią błędu próby.

W rzeczywistości, każda statystyczna zależność podczas próby jest często interpretowana na dwa sposoby:

Istnieje związek w ramach populacji, a zatem związek w ramach próby odzwierciedla to.

Nie istnieje żadna relacja w ramach populacji, a zatem relacja w ramach próby odzwierciedla jedynie błąd próby.

Celem testowania hipotez zerowych jest jedynie pomoc naukowcom w podjęciu decyzji pomiędzy tymi dwoma interpretacjami.

Logika testowania hipotez zerowych (Logic of Null Hypothesis Testing)

Testowanie hipotezy zerowej może być formalnym podejściem do decydowania między dwiema interpretacjami zależności statystycznej podczas próby. Jedna interpretacja nazywana jest hipotezą zerową (często symbolizowana jako H0, a chuda jako “H-naught”). Często uważa się, że w obrębie populacji nie istnieje żaden związek, którego związek w obrębie próby odzwierciedla jedynie błąd próby. Nieformalnie, hipoteza zerowa jest taka, że związek w próbie “wystąpił przypadkowo”, a odwrotna interpretacja nazywana jest hipotezą wyboru (często symbolizowana jako H1). Często jest to myśl, że w obrębie populacji istnieje związek, który związek w próbie odzwierciedla ten związek w obrębie populacji.

Ponownie, każdy statystyczny związek podczas próby jest często interpretowany na jeden z tych dwóch sposobów: wystąpiłby przypadkowo, lub odzwierciedlałby związek w ramach populacji. Badacze potrzebują więc sposobu na podjęcie decyzji pomiędzy nimi. Chociaż istnieje wiele specyficznych technik testowania hipotez zerowych, wszystkie one są wspierane przez równoważną logikę ogólną. Kroki są następujące:

Załóżmy na chwilę, że hipoteza zerowa jest prawdziwa. Nie ma żadnego związku pomiędzy zmiennymi wewnątrz populacji.

Określić jak prawdopodobna byłaby relacja w próbie, gdyby hipoteza zerowa była prawdziwa.

Jeśli relacja w próbie byłaby bardzo mało prawdopodobna, odrzuć hipotezę zerową na korzyść hipotezy wyboru. Jeśli nie byłoby to niezwykle mało prawdopodobne, wówczas należy zachować hipotezę zerową.

Podążając za tą logiką, zaczniemy wiedzieć, dlaczego Mehl i jego koledzy doszli do wniosku, że nie ma żadnej różnicy w gadatliwości między kobietami i mężczyznami w obrębie populacji. W istocie, zadali kolejne pytanie: “Jeśli w populacji nie ma żadnej różnicy, to jak prawdopodobne jest, że w naszej próbie znajdziemy małą różnicę d = 0,06?” Ich odpowiedź na obecne pytanie była taka, że ta relacja w próbie byłaby dość prawdopodobna, gdyby hipoteza zerowa była prawdziwa. Dlatego też zachowali hipotezę zerową – stwierdzając, że nie ma dowodów na istnienie różnicy płci w obrębie populacji. Zobaczymy również, dlaczego Kanner i jego koledzy doszli do wniosku, że istnieje korelacja między kłopotami i objawami w obrębie populacji. Zapytali: “Jeśli hipoteza zerowa była prawdziwa, to jak prawdopodobne jest, że w naszej próbie znajdziemy solidną korelację na poziomie +,60?”. Ich odpowiedź na obecne pytanie była taka, że ta zależność w próbie byłaby mało prawdopodobna, gdyby hipoteza zerowa była prawdziwa. Dlatego odrzucili hipotezę zerową na korzyść hipotezy wyboru – konkludując, że istnieje bezpośrednia korelacja pomiędzy tymi zmiennymi w populacji.

Kluczowym krokiem w testowaniu hipotezy zerowej jest ustalenie prawdopodobieństwa uzyskania wyniku próby, gdyby hipoteza zerowa była prawdziwa. Prawdopodobieństwo to nazywane jest wartością p. Wartość p oznacza, że wynik próby byłby mało prawdopodobny, gdyby hipoteza zerowa była prawdziwa i skutkowałaby odrzuceniem hipotezy zerowej. Wysoka wartość p oznacza, że wynik próby byłby prawdopodobny, gdyby hipoteza zerowa była prawdziwa i skutkowałaby odrzuceniem hipotezy zerowej. Ale jak niska musi być wartość p zanim wyniki próby zostaną uznane za mało prawdopodobne, aby odrzucić hipotezę zerową? W testowaniu hipotezy zerowej, kryterium to nosi nazwę α (alfa) i prawie zawsze jest ustawiane na .05. Jeśli istnieje tylko 5% szans na wynik ekstremalny, ponieważ wynik próby, jeśli hipoteza zerowa była prawdziwa, wówczas hipoteza zerowa jest odrzucana. Kiedy tak się dzieje, wyniki uważane są za statystycznie istotne. Jeśli istnieje większa niż 5% szansa na wynik jako skrajny, ponieważ wynik próby, gdy hipoteza zerowa jest prawdziwa, wówczas hipoteza zerowa zostaje zachowana. Niekoniecznie oznacza to, że badacz akceptuje hipotezę zerową jako prawdziwą – tylko, że obecnie nie ma wystarczających dowodów, aby stwierdzić, że jest ona prawdziwa. Badacze często używają wyrażenia “nie odrzucić zerową hipotezę” zamiast “zachować zerową hipotezę”, ale nigdy nie używają wyrażenia “zaakceptować zerową hipotezę”.

Źle pojęta wartość p

Wartość p jest jedną z najbardziej niezrozumiałych wielkości w badaniach psychologicznych (Cohen, 1994)[1]. Nawet zawodowi badacze błędnie ją interpretują, a jej powszechne występowanie w podręcznikach do statystyki!

Najczęstszą błędną interpretacją jest to, że wartość p oznacza prawdopodobieństwo, że hipoteza zerowa jest prawdziwa – że wynik próby wystąpił przypadkowo. Na przykład, błędny badacz może powiedzieć, że ponieważ wartość p wynosi .02, jest tylko 2% szans, że wynik jest dzięki przypadkowi i 98% szans, że odzwierciedla prawdziwy związek w populacji. Ale często jest to błędne. Wartość p jest w zasadzie prawdopodobieństwem wyniku minimum jako skrajnego, ponieważ wynik próby, jeśli hipoteza zerowa była prawdziwa. Tak więc wartość p równa 0,02 oznacza, że gdyby hipoteza zerowa była prawdziwa, to w próbie wynik tego ekstremum wystąpiłby tylko w 2% czasu.

Możesz uniknąć tego nieporozumienia, pamiętając, że wartość p nie jest prawdopodobieństwem, że jakaś konkretna hipoteza jest prawdziwa lub fałszywa. Zamiast tego, jest to prawdopodobieństwo uzyskania przykładowego wyniku, jeśli hipoteza zerowa była prawdziwa.

Rola wielkości próbki i siła związku

Przypomnijmy, że testowanie hipotezy zerowej wiąże się z odpowiedzią na pytanie: “Jeśli hipoteza zerowa była prawdziwa, jakie jest prawdopodobieństwo uzyskania tak skrajnego wyniku jak ten?”. Innymi słowy, “Jaka jest ta wartość p?” Często pomocne jest stwierdzenie, że rozwiązanie niniejszego pytania zależy tylko od dwóch czynników: siły połączenia i tym samym wielkości próby. Konkretnie, im silniejszy jest związek, a tym samym im większa jest próbka, tym mniejsze prawdopodobieństwo uzyskania wyniku, gdyby hipoteza zerowa była prawdziwa. Oznacza to, że im niższa wartość p, tym mniejsze prawdopodobieństwo uzyskania wyniku. To może się sumować. Wyobraźmy sobie badanie, podczas którego próba 500 kobiet jest porównywana z próbą 500 mężczyzn pod względem pewnych cech psychologicznych, a d Cohena może być silne 0,50. Jeżeli naprawdę nie było żadnej różnicy płci w obrębie populacji, wtedy wynik ten silny wspierał taką powiększoną próbę powinien wydawać się wysoce nieprawdopodobny. Teraz wyobrazić sobie identyczny badanie podczas gdy próbka trzy kobieta porównywać z próbka trzy mężczyzna, i Cohen’s d móc słaby 0.10. Jeśli nie było różnic płci w populacji, wówczas związek, który ten słaby wspierał taką małą próbę, powinien wydawać się prawdopodobny. I to jest często właśnie dlaczego hipoteza zerowa byłaby odrzucona w pierwszym przykładzie i zachowana w drugim.

Oczywiście czasami wynik jest często słaby i dlatego też próba jest duża lub też wynik jest często silny i dlatego też próba jest mała. W takich przypadkach te 2 rozważania wzajemnie się równoważą, tak aby słaby wynik był często statystycznie istotny, jeżeli próba jest wystarczająco duża, a solidna relacja jest często statystycznie istotna, chociaż próba jest mała. Tabela 13.1 pokazuje w przybliżeniu, w jaki sposób siła związku i wielkość próby łączą się w celu ustalenia, czy wynik próby jest statystycznie istotny. Kolumny tabeli przedstawiają trzy poziomy siły zależności: słabą, średnią i silną. Wiersze reprezentują cztery wielkości próbek, które będą uważane za małe, średnie, duże i dodatkowe duże w kontekście badań psychologicznych. Tak więc każda komórka w tabeli reprezentuje mieszankę siły związków i wielkości próby. Jeśli komórka zawiera słowo Tak, to ta mieszanka będzie statystycznie istotna zarówno dla Cohen’a d jak i Pearson’a r. Jeśli zawiera słowo Nie, to może nie być statystycznie istotna dla żadnego z nich. Jest jedna komórka, w której wybór d i r byłby różny, a inna, w której byłby różny, licząc na pewne dodatkowe względy, które omówiono w sekcji 13.2 “Niektóre podstawowe testy hipotezy zerowej”.

Chociaż Tabela 13.1 zawiera tylko przybliżone wytyczne, pokazuje bardzo wyraźnie, że słabe zależności wspierane średnich lub małych prób nigdy nie są statystycznie istotne, a silne zależności wspierane średnich lub większych prób są zawsze statystycznie istotne. Jeśli zachowasz tę lekcję w pamięci, często będziesz wiedział, czy wynik statystycznie istotny wspierał same statystyki opisowe. Niezwykle przydatna jest gotowość do rozwinięcia tego typu intuicyjnej oceny. Jednym z powodów jest to, że pozwala ona na rozwinięcie oczekiwań co do tego, jak zaczynają się formalne testy hipotez zerowych, które sukcesywnie pozwalają na wykrycie problemów w analizach. Na przykład, jeśli twoja próbka jest solidna, a twoja próba jest średnia, to oczekujesz odrzucenia hipotezy zerowej. Jeśli z kilku powodów formalny test hipotezy zerowej wskazuje inaczej, wówczas należy dwukrotnie sprawdzić swoje obliczenia i interpretacje. Drugim powodem jest to, że zdolność do formułowania tego typu intuicyjnych osądów jest znakiem, że po prostu rozumiesz podstawową logikę tego podejścia dodatkowo do zdolności do próbowania obliczeń.

Znaczenie statystyczne Versus Znaczenie praktyczne

Tabela 13.1 ilustruje kolejny niezwykle ważny punkt. Wynik statystycznie istotny nie musi być solidny. Nawet bardzo słaby wynik jest często statystycznie istotny, jeśli jest poparty wystarczająco dużą próbą. Jest to często ściśle związane z argumentem Janet Shibley Hyde dotyczącym różnic płci (Hyde, 2007)[2]. Różnice między kobietami i mężczyznami w zakresie rozwiązywania problemów matematycznych i zdolności przywódczych są statystycznie istotne. Jednak słowo “znaczące” może sprawić, że ludzie będą interpretować te różnice jako silne i ważne – być może nawet na tyle ważne, by wpływać na kursy szkolne, na które uczęszczają, a może nawet na to, na kogo głosują. Jednakże, jak widzieliśmy, te statystycznie istotne różnice są dosłownie dość słabe – być może nawet “trywialne”.

Dlatego ważne jest, aby rozróżnić statystyczną istotność wyniku, a tym samym praktyczną istotność tego wyniku. Istotność praktyczna odnosi się do ważności lub przydatności celu w jakimś kontekście realnym. Wiele różnic między płciami jest statystycznie istotnych – i może nawet być interesujących z czysto naukowych powodów – ale praktycznie nie są one istotne. W praktyce klinicznej to samo pojęcie jest zwykle wymieniane jako “znaczenie kliniczne”. Na przykład badanie dotyczące leczenia substytucyjnego fobii może wykazać, że przynosi ono istotny statystycznie pozytywny efekt. Jednak efekt ten nadal nie będzie wystarczająco silny, aby uzasadnić czas, wysiłek i inne koszty związane z jego wprowadzeniem w życie – zwłaszcza jeśli łatwiejsze i tańsze metody leczenia, które niemalże istnieją już na rynku pracy. Chociaż jest to statystycznie istotne, można powiedzieć, że wynik ten nie ma znaczenia praktycznego lub klinicznego.

Testowanie hipotez zerowych może być formalnym podejściem do decydowania, czy statystyczna relacja podczas próby odzwierciedla prawdziwą relację w populacji, czy też jest po prostu wynikiem przypadku.

Logika testowania hipotezy zerowej polega na założeniu, że hipoteza zerowa jest prawdziwa, ustaleniu jak prawdopodobny byłby wynik próby, gdyby założenie to było prawidłowe, a następnie dokonaniu wyboru. Jeśli wynik próby byłby mało prawdopodobny, gdyby hipoteza zerowa była prawdziwa, wówczas jest on odrzucany na korzyść hipotezy wyboru. Jeśli nie jest on mało prawdopodobny, wówczas hipoteza zerowa zostaje zachowana.

Prawdopodobieństwo uzyskania wyniku próby, jeśli hipoteza zerowa byłaby prawdziwa (wartość p), opiera się na dwóch przesłankach: sile relacji i wielkości próby. Rozsądne osądy na temat tego, czy relacja w próbie jest statystycznie istotna, można często dokonać poprzez szybkie rozważenie tych dwóch czynników.

Istotność statystyczna nie jest równoznaczna z siłą lub znaczeniem związku. Nawet słabe relacje są często statystycznie istotne, jeśli wielkość próby jest wystarczająco duża. Ważne jest, aby myśleć o sile związków, a zatem o praktycznej istotności celu, oprócz jego statystycznej istotności.