Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Wartości P są często błędnie interpretowane, co powoduje wiele problemów. Nie będę tu ponownie omawiał tych problemów, ponieważ mój kolega Jim Frost szczegółowo je opisał, ale sam fakt pozostaje faktem, że wartość p nadal będzie jednym z najczęściej używanych narzędzi do decydowania o tym, czy wynik jest statystycznie istotny.

Znasz starą piłę o “Kłamstwach, cholernych kłamstwach i statystykach”, prawda? Brzmi ona prawdziwie, ponieważ statystyka naprawdę jest maksymalną ilością o interpretacji i prezentacji, ponieważ jest to matematyka. To znaczy, że my, obywatele, którzy analizujemy dane, ze wszystkimi naszymi dziwactwami i niedociągnięciami, mamy szansę zaciemnić i przyćmić sposób, w jaki wyniki są raportowane.

Chociaż generalnie chcę wierzyć, że ludzie chcą być uczciwi i obiektywni – szczególnie inteligentni ludzie, którzy badają i analizują dane, które będą miały wpływ na życie innych ludzi – to istnieje 500 dowodów, które lecą w obliczu tego przekonania.

Wrócimy do nich za minutę. Ale najpierw, szybka rewizja…

Co to jest P-Value, i jak ja to interpretuję?

Większość ludzi najpierw spotyka się z wartościami P, gdy przeprowadzamy proste testy hipotez, choć są one również integralną częścią kilku bardziej zaawansowanych metod. Skorzystajmy z oprogramowania statystycznego Minitab, aby spróbować szybko sprawdzić, jak one działają (jeśli chcesz kontynuować i nie masz programu Minitab, cały pakiet jest bezpłatny przez 30 dni). Mamy zamiar porównać zużycie paliwa dla 2 różnych rodzajów pieców, aby stwierdzić, czy istnieje różnica między ich środkami.

Przejdź do menu Plik > Otwórz arkusz i kliknij przycisk “Wyszukaj w folderze danych próbek programu Minitab”. Otwórz zestaw danych próbki o nazwie Furnace.mtw i wybierz z menu Stat > Statystyki podstawowe > 2 Próbka t…. W panelu wpisz “BTU.In” dla Próbek i wpisz “Damper” dla Identyfikatorów Próbek.

Naciśnij przycisk OK, a program Minitab wyświetli kolejne wyjście, w którym zaznaczyłem wartość p.

W większości analiz stosuje się wartość alfa równą 0,05, ponieważ jest to wartość odcięcia dla znaczenia. Jeśli wartość p jest mniejsza niż 0,05, odrzucamy hipotezę zerową, że nie ma różnicy między tymi środkami, i stwierdzamy, że istnieje duża różnica. Jeśli wartość p jest większa niż 0,05, nie możemy stwierdzić, że istnieje duża różnica.

To całkiem proste, prawda? Poniżej 0,05, znacząca. Powyżej 0,05, nieistotna.

“Przegapiłam to tak bardzo!”

W powyższym przykładzie wynik jest jasny: p-wartość 0,7 jest tak duża powyżej 0,05, że po prostu nie można zastosować żadnej iluzji do wyników. Ale co jeśli twoja wartość p jest w zasadzie na skraju 0,05?

Na przykład, co jeśli twoja wartość p jest na granicy 0,06?

To nie jest istotne.

Oh. Okay, a co z 0.055?

Nieistotne.

A co powiesz na 0,051?

To nadal nie jest statystycznie istotne, a analitycy danych nie powinni udawać, że jest inaczej. Wartość p nie jest negocjacją: jeśli p > 0,05, wyniki nie są istotne. Okres.

Co mam powiedzieć, gdy otrzymam wartość p, która jest wyższa niż 0,05?

A co powiesz na to? “Wyniki nie były statystycznie istotne.” Jeśli tak ci mówią informacje, to nie ma nic złego w mówieniu tego.

Nieważne, jak cienko to pokroisz, to wciąż Baloney.

Co sprowadza mnie do wpisu na blogu, o którym wspomniałem na początku. Do provides it a read, but rock bottom line is that the author cataloged 500 alternative ways that contributors to scientific journals have used language to obscure their results (or lack thereof).

Jako uczeń języka, przyznaję, że uważam tę listę za fascynującą… ale i denerwującą. To nie jest w porządku: Ci współpracownicy to ludzie wykształceni, którzy z pewnością rozumieją A) co oznacza wartość p powyżej 0,05, i B) że manipulowanie słowami w celu stopienia tego wyniku jest celowo zwodnicze. Albo umieszczenie jej w słowach, które są mniej miękkie, jest cholernym kłamstwem.

Niemniej jednak, zdarza się to często.

Oto tylko kilka z moich ulubionych spośród pięciuset alternatywnych sposobów, na które ludzie zgłaszali wyniki, które nie były znaczące, pośród wartości p, do których odnosiły się te twórcze interpretacje:

Pewna tendencja do znaczenia (p=0,08)

zbliżył się do granicy znaczenia (p=0,07)

Na marginesie istotności statystycznej (p