Intuicyjne (i krótkie) wyjaśnienie twierdzenia Bayes’a

Twierdzenie Bayes’a było przedmiotem szczegółowego artykułu. Esej jest dobry, ale długi na ponad 15 000 słów – oto skondensowana wersja dla bayesowskich nowicjuszy, takich jak ja:

Testy nie są taką okazją. Mamy test na chorobę, oddzielony od okazji naprawdę złośliwego wzrostu. Mamy test na spam, oddzielony od okazji prawdziwego posiadania wiadomości spam.

Testy są niedoskonałe. Testy rozpoznają rzeczy, które nie istnieją (fałszywie pozytywne) i pomijają rzeczy, które istnieją (fałszywie negatywne). Osoby regularnie korzystają z wyników testów bez modyfikacji błędów w testach.

Fałszywe, pozytywne wyniki przechyleń. Załóżmy, że skanujesz w poszukiwaniu czegoś niezwykle rzadkiego (1 na milion). Rzeczywiście, nawet z przyzwoitym testem, wszystko co rozważane, pozytywny wynik jest niezwykle fałszywie pozytywny na kogoś w 999,999.

Osoby pochylają się w stronę normalnych liczb . Powiedzenie “100 na 10.000” zamiast “1%” pomaga osobom pracującym z liczbami z mniejszą ilością błędów, zwłaszcza z licznymi wskaźnikami (“z tych 100, 80 będzie testowało pozytywnie” w przeciwieństwie do “80% z 1% będzie testowało pozytywnie”).

W rzeczy samej, nawet nauka jest testem. Na poziomie filozoficznym, badania logiczne są “możliwie niedoskonałymi testami” i powinny być odpowiednio traktowane. Jest test na związek lub cud, i jest po prostu okazja do cudów. Nasze testy i szacowanie sprzętu mają tempo błędne do przedstawienia. Hipoteza Bayes’a zmienia się w zależności od wyników testu na rzeczywiste prawdopodobieństwo zaistnienia takiej sytuacji. Na przykład, możesz:

Poprawne dla błędów pomiaru Na wypadek gdybyś znał prawdziwe prawdopodobieństwa i możliwość fałszywie pozytywnego i fałszywie negatywnego, możesz zająć się błędami oszacowania.

Powiązać rzeczywiste prawdopodobieństwo z celowym prawdopodobieństwem testu. Biorąc pod uwagę wyniki badania mammograficznego i stwierdzone błędy w ocenie, można przewidzieć realną możliwość wystąpienia choroby z pozytywnym wynikiem badania. W specjalistycznych kategoriach, można odkryć Pr(H|E), możliwość, że teoria Jego prawdziwy dowód E, począwszy od Pr(E|H), możliwość, że dowód pojawia się, gdy spekulacja jest ważna.

Anatomia testu

Artykuł przedstawia sytuację związaną z badaniem choroby:

1% kobiet ma raka piersi (i w ten sposób 99% nie ma).

80% mammografów rozpoznaje raka piersi, gdy już tam jest (i w ten sposób 20% go omija).

9,6% mammografii rozpoznaje wzrost raka piersi, gdy go nie ma (a zatem 90,4% skutecznie zwraca negatywny wynik).

Połóżcie na stole, prawdopodobieństwo jest podobne do tego:

Jak byśmy to przeczytali?

1% osób ma raka

Na wypadek, gdybyś miał teraz raka piersi, jesteś w głównej sekcji. Istnieje 80% prawdopodobieństwo, że wynik testu będzie pozytywny. Istnieje 20% prawdopodobieństwo, że test będzie negatywny.

W przypadku, gdy nie masz raka piersi, jesteś w kolejnym segmencie. Istnieje 9,6% prawdopodobieństwo, że wynik będzie pozytywny, a 90,4%, że negatywny.

Jak dokładny jest test?

Obecnie zakładamy, że wynik testu jest pozytywny. Jaka jest szansa, że masz raka? 80%? 99%? 1%?

Oto sposób, w jaki ja to rozważam:

Dobra, mamy pozytywny wynik. To znaczy, że jesteśmy gdzieś w górnej kolumnie naszego stołu. Nie powinniśmy niczego akceptować – może to być prawdziwie pozytywny lub fałszywie pozytywny.

The chances of a true positive = chance you have cancer * chance test caught it = 1% * 80% = .008

The chances of a false positive = chance you don’t have cancer * chance test caught it anyway = 99% * 9.6% = 0.09504

Stół wygląda tak:

Co jeszcze raz? Co to było za dochodzenie? Łaskawe tak: jaka jest szansa, że naprawdę mamy raka w przypadku pozytywnego wyniku. Możliwością jest liczba sposobów, na jakie może się to zdarzyć, biorąc pod uwagę każdy możliwy do wyobrażenia rezultat:

Możliwość uzyskania prawdziwego, pozytywnego wyniku to .008. Możliwość uzyskania jakiegokolwiek pozytywnego wyniku to możliwość uzyskania prawdziwego pozytywu, oprócz możliwości uzyskania fałszywego pozytywu (.008 + 0,09504 = .10304).

Tak więc, nasza możliwość zachorowania wynosi .008/.10304 = 0,0776, czyli około 7,8%.

Intrygujące – pozytywny wynik badania mammograficznego oznacza po prostu, że masz 7,8% możliwości wystąpienia złośliwości, w przeciwieństwie do 80% (rzekoma precyzja badania). Może wydawać się nienormalny od samego początku, ale dobrze to wróży: test daje fałszywie dodatni 9,6% czasu (bardzo wysoki), więc będzie wiele fałszywych punktów zachęcających w danej populacji. W przypadku nietypowej choroby, duża część pozytywnych wyników testu nie będzie właściwa.

Może sprawdzimy nasz instynkt, wyciągając wnioski z gałek ocznych stołu. Jeśli weźmiesz 100 osób, tylko 1 osoba będzie miała chorobę (1%), a oni prawdopodobnie będą mieli pozytywny wynik testu (80% możliwości). Spośród 99 wybitnych osób, około 10% będzie miało wynik pozytywny, więc otrzymamy około 10 fałszywie pozytywnych. Myśląc o wszystkich dodatnich testach, tylko 1 na 11 ma rację, więc istnieje możliwość 1/11 wzrostu złośliwego przy pozytywnym teście. Oryginalna liczba to 7,8% (więcej jak 1/13, zarejestrowane powyżej), ale znaleźliśmy sensowny miernik bez maszyny dodającej.

Twierdzenie Bayes’a

Możemy przekształcić powyższą procedurę w warunek, którym jest twierdzenie Bayesa. Daje to szansę na przejście przez wyniki egzaminu i prawo do “skosów” przedstawianych przez fałszywie pozytywnych. Masz prawdziwą możliwość skorzystania z okazji. Oto warunek:

Co więcej, oto klucz do dekodera, żeby go odczytać:

Pr(H|E) = Szansa na zachorowanie na raka (H) przy pozytywnym wyniku badania (E). To jest to, co musimy wiedzieć: Jak prawdopodobne jest, że będzie miał raka z pozytywnym wynikiem? Dla naszej sytuacji było to 7,8%.

Pr(E|H) = Szansa na pozytywny wynik testu (E) biorąc pod uwagę, że miałeś raka (H). Jest to szansa naprawdę pozytywna, 80% dla naszej sytuacji.

Pr(H) = Szansa na zachorowanie na raka (1%).

Pr(nie H) = Szansa na to, że nie będzie miał raka(99%).

Pr(E|nie H) = Szansa na pozytywny wynik testu (E) biorąc pod uwagę, że nie miałeś złośliwości (nie H). To jest fałszywie pozytywne, 9,6% dla naszej sytuacji.

Wszystko sprowadza się do możliwości prawdziwego pozytywu, oddzielonego od możliwości jakiegokolwiek pozytywu. Możemy poprawić stan do:

Pr(E) ujawnia nam możliwość uzyskania jakiegokolwiek pozytywnego wyniku, niezależnie od tego, czy jest on rzeczywiście dodatni w populacji złośliwego wzrostu (1%), czy fałszywie dodatni w populacji niezagrożonej chorobą (99%). W działaniu jako czynnik ważący, modyfikujący szanse na prawie pewny wynik.

Zaniedbywanie reprezentowania fałszywych wyników dodatnich jest rzeczą, która sprawia, że niskie 7,8% możliwości wzrostu złośliwego (przy pozytywnym teście) wydaje się dziwne. Wielkie dzięki tobie, normalizatorze, za uporządkowanie nas!