Czy pomyślałbyś, że ktoś, kto twierdził, że robi model całkowicie w głowie, aby dostrzec terrorystów próbujących wejść na pokład samolotu z dokładnością większą niż 99%? Cóż, oto model: po prostu nazwij każdą osobę lecącą z amerykańskiego lotniska etykietą, że nie jest terrorystą. Biorąc pod uwagę 800 milionów przeciętnych pasażerów lotów w USA rocznie, a tym samym 19 (potwierdzonych) terrorystów, którzy weszli na pokład lotów w USA w latach 2000-2017, model ten osiąga zdumiewającą dokładność 99,9999999%! co może zabrzmieć imponująco, ale mam nawet podejrzenia, że Departament Bezpieczeństwa Wewnętrznego USA nie zadzwoni w najbliższym czasie, aby kupić ten model. Chociaż to rozwiązanie ma prawie idealną dokładność, to problem ten jest taki, podczas którego dokładność nie jest oczywiście odpowiednią metryką!

Zadanie polegające na wykrywaniu terrorystów jest niewyważonym problemem klasyfikacyjnym: mamy dwie klasy, które chcielibyśmy zauważyć – terrorystów, a nie terrorystów – z jedną kategorią reprezentującą przytłaczającą większość punktów informacyjnych. Kolejny problem związany z brakiem równowagi w klasyfikacji pojawia się w przypadku wykrywania chorób, gdy ich prędkość w społeczeństwie jest wyjątkowo niska. W obu tych przypadkach klasa pozytywna – choroba lub terrorysta – jest znacznie przewyższana przez klasę negatywną. Tego rodzaju problemy są przykładem dość powszechnego przypadku w nauce o danych, kiedy dokładność nie jest uczciwym miernikiem oceny działania modelu.

Intuicyjnie wszyscy wiemy, że ogłaszanie wszystkich punktów danych jako negatywnych w ramach problemu wykrywania terrorystów nie jest pomocne i zamiast tego powinniśmy zawsze specjalizować się w identyfikacji przypadków pozytywnych. Metryka, którą intuicja podpowiada nam, że powinniśmy zawsze maksymalizować, jest rozumiana w statystykach jako przywoływanie lub moc modelu do wyszukiwania wszystkich istotnych przypadków w ramach zbioru danych. Precyzyjna definicja wycofania jest taka, że liczba prawdziwych pozytywów podzielona przez ilość prawdziwych pozytywów plus ilość fałszywych negatywów. Prawdziwe dane pozytywne to dane zaklasyfikowane przez model jako pozytywne, które są naprawdę pozytywne (co oznacza, że są prawidłowe), a fałszywe dane negatywne to punkty danych, które model określa jako negatywne, które są naprawdę pozytywne (błędne). w przypadku terroryzmu prawdziwe dane pozytywne to prawidłowo zidentyfikowani terroryści, a fałszywe dane negatywne to osoby, które model określa jako nie terroryści, którzy naprawdę byli terrorystami. Często myśli się o zdolności modelu do wyszukiwania wszystkich interesujących go punktów informacyjnych w zbiorze danych.

https://miro.medium.com/max/1533/1*gscG4JdjnyU5QkqNDqBg_w.png

Możesz zauważyć coś w tym równaniu: jeśli oznaczymy wszystkie osoby jako terrorystów, wtedy nasze odwołanie idzie do 1.0! mamy idealny klasyfikator prawda? Cóż, niezupełnie. jak większość pojęć w nauce o danych, istnieje kompromis w metryce, którą wybieramy, aby zmaksymalizować. w przypadku wycofania, gdy zwiększymy wycofanie, zmniejszymy precyzję. Znowu intuicyjnie wiemy, że model, który oznacza 100% pasażerów jako terrorystów, jest być może nieprzydatny, bo wtedy będziemy musieli zakazać każdej osobie latania. Statystyka dostarcza nam słownictwa, które pozwala nam sprecyzować naszą intuicję: ten nowy model ucierpiałby z powodu niskiej precyzji, czy też mocy modelu klasyfikacyjnego, który pozwala dostrzec tylko istotne punkty danych.

Precyzja jest zdefiniowana, ponieważ liczba prawdziwych pozytywów podzielona przez ilość prawdziwych pozytywów plus ilość fałszywych pozytywów. Fałszywe wyniki dodatnie to przypadki, w których model nieprawidłowo określa jako dodatnie, które są dosłownie ujemne, lub w naszym przykładzie osoby, które model klasyfikuje jako terrorystów, które nie są . Podczas gdy recall wyraża prawo do wyszukiwania wszystkich istotnych przypadków w zbiorze danych, precyzja wyraża proporcję punktów informacyjnych, które według naszego modelu były istotne w rzeczywistości były istotne.

https://miro.medium.com/max/1577/1*FKXzF6DYSP2mV4HUBftRgg.png

Teraz zobaczymy, że nasz pierwszy model, który oznaczał wszystkie osoby jako nie terrorystów, nie był zbyt użyteczny. Chociaż miał prawie idealną dokładność, miał 0 precyzji i 0 recall, ponieważ nie było prawdziwych pozytywów! Powiedzmy, że nieznacznie zmodyfikowaliśmy model i prawidłowo zidentyfikowaliśmy jedną osobę jako terrorystę. Teraz nasza precyzja wyniesie 1.0 (brak fałszywych pozytywów), ale nasza pamięć będzie bardzo niska, ponieważ nadal będziemy mieli wiele fałszywych negatywów. Jeśli weźmiemy udział w przeciwstawnym ekstremum i zakwalifikujemy wszystkich pasażerów jako terrorystów, będziemy mieli zapamiętane 1.0 – złapiemy każdego terrorystę – ale nasza precyzja będzie bardzo niska i zatrzymamy wiele niewinnych osób. Innymi słowy, w miarę zwiększania precyzji, zmniejszymy liczbę wycofanych pasażerów i na odwrót.

https://miro.medium.com/max/810/0*XEO3pwAee7tBT_D1.png

Łączenie precyzji i przywoływania

W niektórych sytuacjach wiemy, że chcielibyśmy zmaksymalizować albo wycofanie z rynku, albo precyzję kosztem odwrotnej metryki. Na przykład we wstępnych badaniach przesiewowych pacjentów na obecność choroby możemy prawdopodobnie potrzebować wycofania z rynku w okolicach 1,0 – chcielibyśmy poszukać wszystkich pacjentów, którzy nawet mają tę chorobę – i że możemy zaakceptować precyzję przy kawie, jeśli wartość badania kontrolnego nie jest znacząca. Jednak w przypadkach, w których chcielibyśmy poszukać optymalnego połączenia precyzji i wycofywania produktu z rynku, połączymy te 2 wskaźniki, stosując tzw. punktację F1.

Wynik F1 oznacza, że średnia precyzji i wycofywania z rynku, biorąc pod uwagę oba wskaźniki w ramach następującego równania:

https://miro.medium.com/max/338/1*UJxVqLnbSj42eRhasKeLOA.png

Używamy raczej średniej niż łatwej średniej, ponieważ karze ona wartości skrajne. Klasyfikator o dokładności 1,0 i wycofaniu z rynku 0,0 charakteryzuje się prostą średnią 0,5, ale wynikiem F1 wynoszącym 0. Wynik F1 nadaje jednakową wagę obu miarom i może być specyficznym przykładem ogólnej metryki Fβ, gdzie β są często dostosowywane, aby zaoferować większą wagę do wycofania z rynku lub precyzję. (Istnieją inne metryki łączące precyzję i wycofanie produktu z rynku, takie jak średnia precyzji i wycofania produktu z rynku, ale wynik F1 jest najczęściej stosowanym wskaźnikiem). Jeśli chcielibyśmy stworzyć zrównoważony model klasyfikacji z optymalną równowagą pomiędzy pamięcią i precyzją, to staramy się zmaksymalizować wynik F1.

Wizualizacja precyzji i zapamiętywania

Rzuciłem w ciebie kilka nowych warunków i spróbujemy na przykładzie wskazać, jak są one wykorzystywane w praktyce. Zanim tam dotrzemy, chcielibyśmy jednak krótko wspomnieć o dwóch pojęciach używanych do wykazywania precyzji i zapamiętywania.

Pierwszym z nich jest matryca chaosu, która jest korzystna w szybkim obliczaniu precyzji i zapamiętywaniu, biorąc pod uwagę oczekiwane etykiety z modelu. Matryca dezorientacji dla klasyfikacji binarnej pokazuje cztery różne wyniki: prawdziwie pozytywny, fałszywie pozytywny, prawdziwie negatywny i fałszywie negatywny. poszczególne wartości tworzą kolumny, a zatem przewidywane wartości (etykiety) tworzą wiersze. Przecięcie wierszy i kolumn pokazuje jeden z czterech wyników. na przykład, jeśli przewidujemy, że punkt wiedzy jest dodatni, ale w rzeczywistości jest ujemny, to często jest to wynik fałszywie dodatni.

https://miro.medium.com/max/717/1*CPnO_bcdbE8FXTejQiV2dg.png

Przejście od macierzy dezorientacji do wycofania i precyzji wymaga znalezienia odpowiednich wartości w macierzy i zastosowania równań:

https://miro.medium.com/max/1219/1*6NkN_LINs2erxgVJ9rkpUA.png

Inną główną techniką wizualizacji do pokazania wydajności modelu klasyfikacyjnego jest krzywa charakterystyki operacyjnej odbiornika (ROC). Nie pozwól, aby ta skomplikowana nazwa cię przestraszyła! Myśl jest stosunkowo prosta: krzywa ROC pokazuje, jak zmienia się zależność między zapamiętywaniem a precyzją, ponieważ zmieniamy krawędź do identyfikacji pozytywu w naszym modelu. krawędź reprezentuje wartość, powyżej której punkt wiedzy jest brany pod uwagę w ramach klasy pozytywnej. Jeśli posiadamy model identyfikacji choroby, nasz model może dawać wynik dla każdego pacjenta w przedziale od 0 do 1 i w tym przedziale możemy ustawić próg oznaczający pacjenta jako cierpiącego na daną chorobę (etykieta pozytywna). Zmieniając krawędź, będziemy starali się osiągnąć odpowiednią precyzję w stosunku do salda wycofania.

Krzywa ROC wykreśla współczynnik prawdziwie dodatni na osi y w porównaniu z współczynnikiem fałszywie dodatnim na osi x. Współczynnik prawdziwie dodatni (TPR) polega na tym, że współczynnik wycofania z rynku, a więc współczynnik fałszywie dodatni (FPR), jest tym, że prawdopodobieństwo wystąpienia ostrzeżenia jest większe. Oba te współczynniki są często obliczane na podstawie macierzy dezorientacji:

https://miro.medium.com/max/1082/1*Uh9YUp632ktSd75bZDeB0Q.png

https://miro.medium.com/max/443/0*2iHR8dFXev5GWo_f.png

Czarna linia przekątnej wskazuje na przypadkowy klasyfikator i dlatego czerwona i niebieska krzywa pokazują dwa różne modele klasyfikacji. Dla danego modelu pozostanie nam tylko jedna krzywa, ale będziemy poruszać się po niej dostosowując nasz próg dla klasyfikacji przypadku pozytywnego. Generalnie, w miarę zmniejszania krawędzi, przesuwamy się do właściwej i do góry wzdłuż krzywej. Z progiem 1.0, możemy być w lewym dolnym rogu wykresu, ponieważ nie identyfikujemy żadnych punktów danych jako dodatnich, co skutkuje brakiem prawdziwych i fałszywych wyników dodatnich (TPR = FPR = 0). Zmniejszając krawędź, identyfikujemy więcej punktów danych jako dodatnie, w wyniku czego jest więcej prawdziwie dodatnich, lecz również więcej fałszywie dodatnich (wzrost TPR i FPR). Ostatecznie przy progu 0,0 identyfikujemy wszystkie punkty danych jako dodatnie i znajdujemy się w prawym górnym rogu krzywej ROC (TPR = FPR = 1,0).

Ostatecznie określimy ilościowo krzywą ROC modelu, obliczając cały obszar pod krzywą (AUC), czyli metrykę, która mieści się w przedziale od 0 do 1 z lepszą liczbą wskazującą na lepsze wyniki klasyfikacji. na powyższym wykresie AUC dla krzywej niebieskiej będzie większe niż dla czerwonej, co oznacza, że niebieski model najlepiej nadaje się do osiągnięcia kombinacji precyzji i wycofania. Losowy klasyfikator (czarna linia) osiąga AUC na poziomie 0,5.

Recap

Zajęliśmy się kilkoma terminami, z których żaden nie jest sam w sobie trudny, ale które w połączeniu są często przytłaczające! Zróbmy szybkie podsumowanie, a następnie przećwiczmy przykład, aby solidnie wykorzystać nowe pomysły, których się nauczyliśmy.

Cztery wyniki klasyfikacji binarnej

Prawdziwe wyniki pozytywne: punkty danych oznaczone jako pozytywne, które są dosłownie pozytywne

Fałszywe wyniki pozytywne: punkty danych oznaczone jako pozytywne, które są dosłownie negatywne

Prawdziwe negatywy: punkty danych oznaczone jako negatywne, które są dosłownie negatywne

Fałszywe negatywy: punkty danych oznaczone jako negatywne, które są dosłownie pozytywne

Przypomnienie i metryka precyzyjna (Recall and Precision Metrics)

Przypomnienie: zdolność modelu klasyfikacji do wykrycia wszystkich istotnych instancji

Precyzja: zdolność modelu klasyfikacji do zwracania tylko odpowiednich przypadków

Wynik F1: pojedyncza metryka, która miesza wycofanie i precyzję przy użyciu średniej

Wizualizacja wywoływania i precyzji

Matryca konfuzji: pokazuje poszczególne i przewidywane etykiety z problemu klasyfikacji

Krzywa charakterystyki pracy odbiornika (ROC): wykresy współczynnika prawdziwie dodatniego (TPR) w stosunku do współczynnika fałszywie dodatniego (FPR) jako funkcja progu modelu do klasyfikacji dodatniej

Powierzchnia pod krzywą (AUC): metryka służąca do obliczenia ogólnych parametrów eksploatacyjnych powierzchni podpartego modelu klasyfikacyjnego na podstawie krzywej ROC

Przykładowy wniosek

https://miro.medium.com/max/1016/1*3SjX3LaLUfJ3Yf7xU1QhmA.png

Naszym zadaniem będzie zdiagnozowanie 100 pacjentów z chorobą występującą w 50% całej populacji. przyjmiemy model rejestratora, w którym umieścimy informacje o pacjentach i otrzymamy wynik od 0 do 1. zmienimy krawędź znakowania pacjenta jako pozytywnego (ma chorobę), aby zmaksymalizować wydajność klasyfikującego. ocenimy progi od 0,0 do 1,0 w krokach co 0,1, na każdym etapie obliczając precyzję, wycofanie, F1 i miejsce na krzywej ROC. Poniżej przedstawiono wyniki klasyfikacji dla każdego z progów:

Wykonamy jedno przykładowe obliczenie precyzji, współczynnika rzeczywistego i fałszywego współczynnika dodatniego przy progu 0,5. Najpierw wykonamy matrycę dezorientacyjną:

Możemy użyć liczb w macierzy do obliczenia wycofania, precyzji i wyniku F1:

https://miro.medium.com/max/1441/1*XQOYd2mheHyVVR9H-ENtIQ.png

Następnie obliczamy współczynnik prawdziwie dodatni i fałszywie dodatni, aby znaleźć współrzędne y i x dla krzywej ROC.

https://miro.medium.com/max/1360/1*HzWxvbikCtiB-QtFb48WoQ.png

Aby wykonać całą krzywą ROC, wyróżniamy ten proces na każdym progu. Jak można by pomyśleć, jest to często dość żmudne, więc zamiast robić to ręcznie, używamy języka takiego jak Python, aby spróbować tego dla nas! Notatnik Jupytera z obliczeniami jest na GitHubie dla każdego, kto chce sprawdzić wdrożenie. ostateczna krzywa ROC jest pokazana poniżej z progami powyżej punktów.

https://miro.medium.com/max/555/1*ZAH33g5FD9xYZRadgmqWVw.png

Tutaj zobaczymy, jak wszystkie koncepcje łączą się w całość! Przy progu 1,0 nie klasyfikujemy żadnego pacjenta jako chorego, a zatem mamy wycofanie z rynku i precyzję 0,0. Ponieważ próg ten spada, wycofanie z rynku wzrasta, ponieważ identyfikujemy więcej pacjentów, którzy mają chorobę. Jednak wraz ze wzrostem wycofywania produktu z rynku, nasza precyzja maleje, ponieważ oprócz zwiększenia liczby osób z pozytywnym wynikiem, zwiększamy liczbę osób z fałszywym wynikiem pozytywnym. Przy progu 0,0 nasza pamięć jest idealna – odkrywamy wszystkich pacjentów z chorobą – ale nasza precyzja jest niska, ponieważ mamy wiele fałszywych wyników pozytywnych. będziemy poruszać się po krzywej dla danego modelu, zmieniając krawędź i wybierając krawędź, która maksymalizuje wynik F1. Aby przesunąć całą krzywą, być może będziemy musieli zbudować specjalny model.

Ostateczne statystyki modelu przy każdym progu są poniżej:

https://miro.medium.com/max/529/1*TESjAFBurN7RVXyb5KDOxg.png

W oparciu o wynik F1, najlepszy ogólny model występuje przy progu 0,5. Jeśli chcielibyśmy podkreślić precyzję lub wycofać się w większym stopniu, moglibyśmy wybrać odpowiedni model, który najlepiej sprawdza się na tych miarach.