Prestatiemeting is essentieel voor machinale leeractiviteiten. ROC of Area Under Curve/AUC helpt ons de problemen aan te pakken waarmee we te maken hebben tijdens het classificeren. Bij het controleren of visualiseren van de verschillende classificaties van een model gebruiken we deze metrieken of curven om het resultaat te evalueren. ROC is de afkorting van Receiver Operating Characteristics en AUC is het Area Under the Curve. We kunnen deze term ook schrijven als AUROC of Area Under the Receiver Operating Characteristics.

Gebied onder de curve (AUC)

AUC helpt bij het vergelijken van verschillende classificaties. U kunt samenvatten hoe elke classificator presteert in één enkele maatregel. De basisaanpak om de AUC te vinden is het berekenen van de AUROC. Het is vergelijkbaar met de waarschijnlijkheid dat de willekeurige negatieve instantie lager is dan de positieve instantie. Als een classificator een lagere AUC heeft dan een andere classificator, betekent dit normaal gesproken dat de score van de hoge AUC niet goed is. Echter, AUC werkt goed onder de algemene meting van de voorspellende nauwkeurigheid.

Enkele belangrijke termen

– De Verwarringsmatrix

Wanneer de outputklassen meer dan één zijn, kunt u de verwarringsmeting gebruiken om de classificatieproblemen van het machineleren op te lossen. De verwarringsmatrix bevat vier verschillende combinaties van werkelijke en voorspelde waarden. U kunt deze techniek gebruiken om specificiteit, precisie, recall, nauwkeurigheid en het onderwerp dat we vandaag bespreken, AUC en ROC-curve, te meten. Laten we de termen die de verwarringsmatrix bevat begrijpen aan de hand van het voorbeeld van de zwangerschap:

Echt Positief

De interpretatie van echt positief is dat je het positieve voorspelt, en het is een echte verklaring. Bijvoorbeeld, een vrouw is zwanger, en je voorspelt hetzelfde.

Echt negatief

De interpretatie van echt negatief is dat je het negatieve voorspelt, en het is een echte uitspraak. Bijvoorbeeld, een man is niet zwanger, en je voorspelt hetzelfde.

Vals Positief

De vals-positieve interpretatie is dat je het positieve voorspelt, en het is geen echte uitspraak. Een man is bijvoorbeeld niet zwanger, maar je voorspelt wel dat hij zwanger is. Deze voorspelling is een type 1-fout.

Vals-negatief

De echte negatieve interpretatie is dat je het negatieve voorspelt, en het is geen echte uitspraak. Een vrouw is bijvoorbeeld niet zwanger, maar je voorspelt wel dat ze zwanger is. Deze voorspelling is een type 2 fout.
Je moet onthouden dat de werkelijke waarden waar en onwaar zijn, en de waarden die je voorspelt zijn positief en negatief.

– Gevoeligheid en Specificiteit

Verschillende domeinen meten gezamenlijk de gevoeligheid en specificiteit. Dit zijn echter afzonderlijke maatregelen. U kunt gevoeligheid en specificiteit gebruiken om de prestaties van de classificatie van het model te voorspellen. Bovendien kunt u deze maatregelen ook gebruiken om een diagnostische test uit te voeren.
Bijvoorbeeld als we willen meten hoe effectief een diagnostische test is in een medische toestand:
– De gevoeligheid zal meten hoeveel mensen aan de ziekte lijden of hoeveel er positief zijn.
– De specificiteit zal meten hoeveel mensen niet lijden aan de ziekte of hoeveel er negatief zijn.

– Logistieke Regressie

Logistieke regressie is een algoritme dat u kunt gebruiken bij het machinaal leren voor classificatieproblemen. Dit algoritme is voorspellende analyse, waarschijnlijkheid en het concept ervan. Je kunt dit algoritme ook wel lineaire regressiemodel noemen. Echter, lineaire regressie heeft een complexe kostenfunctie in vergelijking met logistieke regressie. U kunt de kostenfunctie van logistieke regressie definiëren als de sigmoid-functie of logistieke functie.
De hypothese in dit algoritme beperkt de kostenfunctie van nul tot één. De lineaire functie stelt echter voor dat deze groter is dan één of kleiner dan nul. Deze voorwaarde is onmogelijk tegen de hypothese van de logistieke regressie in.

Inzicht in het concept

Het creëren van een ROC-curve

U kunt een ROC-curve construeren door de TPR of true positive rate en FPR of false positive rate tegen elkaar te plaatsen. De true positive rate is de waarnemingen die u correct als positief voorspelt uit alle positieve waarnemingen. De wiskundige weergave is:
TP/(TP + FN)
Op dezelfde manier is het vals-positieve percentage de waarnemingen die je ten onrechte als positief voorspelt van alle negatieve waarnemingen. De wiskundige voorstelling is:
FP/(TN + FP)
Bijvoorbeeld, tijdens het uitvoeren van een medische test voor een ziekte, is de snelheid waarmee je mensen correct identificeert voor de positieve resultaten de echte positieve snelheid.
U kunt alleen een enkel punt op de ROC-ruimte krijgen als de classificator alleen uw voorspellingsklasse retourneert. Wanneer de classificatoren echter problematisch zijn en een score of waarschijnlijkheid hebben die bij de ene klasse hoort in plaats van bij de andere, kunt u een curve maken met een variërende scoringsdrempel. U kunt verschillende discrete classifiers omzetten in scorende classifiers door hun statistieken te vinden. Zo kunt u bijvoorbeeld de klasse van het knooppunt van een blad vinden door middel van fracties van de knooppunten.

De ROC-curve interpreteren

De ROC-curve geeft de aanpassing aan tussen de FPR (specificiteit) en TRP (gevoeligheid). De classificator in de linkerbovenhoek geeft aan dat de prestaties beter zijn. Standaard krijgt u punten van een random classifier tussen de diagonaal.
FPR=TRP
Je kunt zeggen dat de test minder nauwkeurig is als de curve dichter bij de 45 graden van de ROC-ruimte ligt.
ROC is niet afhankelijk van de klassenverdeling. Daarom kunt u de zeldzame gebeurtenissen evalueren met voorspellende classificaties zoals een ramp of een ziekte. In vergelijking daarmee zal de nauwkeurigheid van de volgende vergelijking classificatoren helpen die meestal negatieve resultaten voorspellen voor een zeldzame aandoening of gebeurtenis.
(TP +TN)/(TP + TN + FN + FP)

Conclusie

U kunt de ROC-curve voor machinaal leren en andere sectoren en industrieën gebruiken om de zeldzame aandoeningen te vinden die niet over de juiste classificaties beschikken. U moet de classifiers voorspellen en vaststellen of de curve langs de 45 graden van het ROC-gebied ligt. Medische sectoren hebben effectieve resultaten en uitkomsten van zeldzame ziekten gevonden.