Pomiar wydajności ma zasadnicze znaczenie dla działań związanych z uczeniem się maszyn. ROC lub Area Under Curve/AUC pomaga nam rozwiązywać problemy, które napotykamy podczas klasyfikacji. Podczas sprawdzania lub wizualizacji, jak różne klasyfikacje modelu działają, wykorzystujemy te metryki lub krzywe do oceny wyników. ROC to skrót od Receiver Operating Characteristics, a AUC to Area Under the Curve (obszar pod krzywą). Możemy również napisać ten termin jako AUROC lub Area Under the Receiver Operating Characteristics.

Obszar pod krzywą (AUC)

AUC pomaga w porównywaniu różnych klasyfikatorów. Możesz podsumować, jak każdy z klasyfikatorów radzi sobie w pojedynczym działaniu. Podstawowym sposobem na znalezienie AUC jest obliczenie AUROC. Jest ono podobne do prawdopodobieństwa, że losowo ujemny przypadek jest mniejszy niż pozytywny. Jeśli klasyfikator ma niższe AUC niż inny klasyfikator, oznacza to zazwyczaj, że wynik wysokiego AUC nie jest dobry. Jednakże AUC działa dobrze w ramach ogólnego pomiaru dokładności predykcyjnej.

Ważna terminologia

– Matryca dezorientacyjna

Kiedy klasy wyjściowe są więcej niż jedne, można użyć pomiaru pomyłki, aby rozwiązać problemy klasyfikacji uczenia się maszynowego. Tabela macierzy dezorientacji zawiera cztery różne kombinacje wartości rzeczywistych i przewidywanych. Możesz użyć tej techniki do pomiaru specyficzności, precyzji, przywołania, dokładności i tematu, który dzisiaj omawiamy, krzywej AUC i ROC. Zrozummy pojęcia, które zawiera matryca dezorientacyjna, na przykładzie ciąży:

Prawdziwy Pozytywny

Interpretacja prawdziwego pozytywu polega na tym, że przewidujesz to, co pozytywne, i jest to prawdziwe stwierdzenie. Na przykład, kobieta jest w ciąży, a ty przewidujesz to samo.

Prawdziwy Negatywny

Interpretacja prawdziwego negatywu polega na tym, że przewidujesz to, co negatywne, i jest to prawdziwe stwierdzenie. Na przykład, mężczyzna nie jest w ciąży, a ty przewidujesz to samo.

Fałszywy Pozytywny

Fałszywie pozytywna interpretacja jest taka, że przewidujesz pozytywne, a nie jest to prawdziwe stwierdzenie. Na przykład, mężczyzna nie jest w ciąży, ale ty przewidujesz, że jest w ciąży. Ta prognoza jest błędem typu 1.

Fałszywy Negatywny

Prawdziwą negatywną interpretacją jest to, że przewidujesz negatyw, a nie jest to prawdziwe stwierdzenie. Na przykład, kobieta nie jest w ciąży, ale ty przewidujesz, że jest w ciąży. Ta prognoza jest błędem typu 2.
Należy pamiętać, że rzeczywiste wartości są prawdziwe i fałszywe, a przewidywane wartości są pozytywne i negatywne.

– Wrażliwość i specyficzność

Różne dziedziny wspólnie mierzą wrażliwość i specyfikę. Są to jednak odrębne środki. Czułość i specyficzność można wykorzystać do przewidywania wydajności klasyfikacji modelu. Co więcej, można również użyć tych miar do przeprowadzenia testu diagnostycznego.
Na przykład, jeśli chcemy zmierzyć jak skuteczny jest test diagnostyczny w danym stanie zdrowia:
– Wrażliwość mierzy, ile osób cierpi na daną chorobę lub ile osób ma pozytywny wynik.
– Specyfika mierzy, ile osób nie cierpi na tę chorobę lub ile jest negatywnych.

– Regresja logistyczna

Regresja logistyczna jest algorytmem, który można wykorzystać w procesie uczenia maszynowego do rozwiązywania problemów z klasyfikacją. Algorytm ten jest analizą predykcyjną, prawdopodobieństwem i jego koncepcją. Możesz również nazwać ten algorytm, model regresji liniowej. Jednakże regresja liniowa ma złożoną funkcję kosztową w porównaniu z regresją logistyczną. Możesz zdefiniować funkcję kosztową regresji logistycznej jako funkcję sigmoidalną lub funkcję logistyczną.
Hipoteza w tym algorytmie ograniczy funkcję kosztową od zera do jednego. Funkcja liniowa oznacza jednak, że ma być większa od jednego lub mniejsza od zera. Warunek ten jest niemożliwy do pogodzenia z hipotezą regresji logistycznej.

Zrozumienie koncepcji

Tworzenie krzywej ROC

Możesz skonstruować krzywą ROC umieszczając TPR lub rzeczywistą dodatnią stopę i FPR lub fałszywą dodatnią stopę względem siebie. Prawdziwa dodatnia stopa procentowa to obserwacje, które poprawnie przewidujesz jako dodatnie z wszystkich dodatnich obserwacji. Matematyczna reprezentacja jest:
TP/(TP + FN)
Podobnie, wskaźnik fałszywie dodatni to obserwacje, które nieprawidłowo przewidujesz jako dodatnie ze wszystkich negatywnych obserwacji. Matematyczna reprezentacja jest:
FP/(TN + FP)
Na przykład, podczas wykonywania testu medycznego na daną chorobę, tempo, w jakim prawidłowo identyfikujesz osoby z pozytywnym wynikiem jest prawdziwie pozytywne.
Możesz otrzymać tylko jeden punkt na przestrzeni ROC, jeśli klasyfikator zwróci tylko twoją klasę predykcji. Jednakże, gdy klasyfikatorzy są problematyczni i mają wynik lub prawdopodobieństwo, które należy do jednej klasy zamiast do innych, możesz utworzyć krzywą z różnym progiem wyników. Możesz przekształcić różne dyskretne klasyfikatory w klasyfikatory punktowe poprzez znalezienie ich statystyk. Na przykład, można znaleźć klasę węzła liścia przez ułamki węzłów.

Interpretacja krzywej ROC

Krzywa ROC oznacza korektę pomiędzy FPR (specyficzność) i TRP (czułość). Klasyfikator w lewym górnym rogu określa, że wydajność jest lepsza. Standardowo punkty są przyznawane przez losowy klasyfikator pomiędzy przekątną.
FPR=TRP
Możesz powiedzieć, że test jest mniej dokładny, jeśli krzywa jest bliższa 45 stopniowi przestrzeni ROC.
ROC nie jest zależny od rozkładu klas. Dlatego można oceniać rzadkie zdarzenia za pomocą klasyfikatorów predykcyjnych, takich jak katastrofa czy choroba. W porównaniu z tym, dokładność poniższego równania pomoże klasyfikatorom, którzy przeważnie przewidują negatywne wyniki dla rzadkich stanów lub zdarzeń.
(TP +TN)/(TP + TN + FN + FP)

Wniosek

Krzywą ROC można wykorzystać do nauki maszynowej oraz w innych sektorach i branżach, aby znaleźć rzadkie warunki, które nie posiadają odpowiednich klasyfikatorów. Musisz przewidzieć klasyfikatory i określić, czy krzywa znajduje się wzdłuż 45 stopni obszaru ROC. Sektory medyczne znalazły skuteczne wyniki i rezultaty rzadkich chorób.