Een verwarringsmatrix is een tabel die vaak wordt gebruikt om de prestaties van een classificatiemodel (of “classifier”) te beschrijven op een set testgegevens waarvan de werkelijke waarden bekend zijn. De verwarringsmatrix zelf is relatief eenvoudig te begrijpen, maar de bijbehorende terminologie kan verwarrend zijn.

Ik moest een “verfrissend referentiebeheer” maken voor de formulering van het perplexiteitskader, omdat ik geen actuele asset kon vinden die paste bij mijn behoeften: geminimaliseerd in de inleiding, gebruikmakend van getallen in plaats van zelfassertieve factoren, en verduidelijkt zowel wat betreft vergelijkingen als zinnen.

Wat dacht je ervan om te beginnen met een modelrooster voor een parallelle classificator (maar het kan ongetwijfeld worden uitgerekt tot het geval van meerdere klassen):

Example confusion matrix for a binary classifier

Wat kunnen we leren van deze matrix?

Er zijn twee denkbare anticiperende lessen: “ja” en “nee”. In het geval dat we anticiperen op de nabijheid van een infectie, bijvoorbeeld, zou “ja” betekenen dat ze de ziekte hebben, en “nee” zou betekenen dat ze de ziekte niet hebben.

De indeler maakte een som van 165 verwachtingen (er werden bijvoorbeeld 165 patiënten berecht voor de nabijheid van die infectie).

Van die 165 gevallen verwachtte de indeler meerdere malen “ja” en meerdere keren “nee”.

In werkelijkheid hebben 105 patiënten in het voorbeeld de infectie, en 60 patiënten niet.

Hoe zit het met het karakteriseren van de meest fundamentele termen, die hele getallen zijn (geen tarieven):

True Positives (TP): Dit zijn gevallen waarin we ja hebben voorspeld (ze hebben de ziekte), en ze hebben de ziekte wel.

ware negatieven (TN): We hebben nee voorspeld, en zij hebben de ziekte niet.

false positives (FP): We hebben ja voorspeld, maar ze hebben de ziekte niet echt. (Ook bekend als een “Type I fout.”)

fout-negatieven (FN): We hebben nee voorspeld, maar ze hebben de ziekte wel. (Ook bekend als een “Type II fout.”)

Ik heb deze termen toegevoegd aan de verwarringsmatrix, en ook de rij- en kolomtotalen:

Example confusion matrix for a binary classifier

Er zijn twee denkbare verwachte klassen: “ja” en “nee”. In het geval dat we anticiperen op de nabijheid van een ziekte, bijvoorbeeld, zou “ja” betekenen dat ze de infectie hebben, en “nee” zou betekenen dat ze de ziekte niet hebben.

De indeler maakte een som van 165 verwachtingen (er werden bijvoorbeeld 165 patiënten berecht voor de nabijheid van die kwaal).

Van die 165 gevallen verwachtte de indeler meerdere malen “ja” en meerdere keren “nee”.

In de regel hebben 105 patiënten in het voorbeeld de ziekte, en 60 patiënten niet.

We zouden nu de meest essentiële termen moeten karakteriseren, die hele getallen zijn (geen tarieven):

True Positives (TP): Dit zijn gevallen waarin we ja hebben voorspeld (ze hebben de ziekte), en ze hebben de ziekte wel.

ware negatieven (TN): We hebben nee voorspeld, en zij hebben de ziekte niet.

false positives (FP): We hebben ja voorspeld, maar ze hebben de ziekte niet echt. (Ook bekend als een “Type I fout.”)

fout-negatieven (FN): We hebben nee voorspeld, maar ze hebben de ziekte wel. (Ook bekend als een “Type II fout.”)

Ik heb deze termen toegevoegd aan het rooster, en bovendien de lijn en segment aggregaten opgenomen:t kunnen we leren van deze matrix?

Example confusion matrix for a binary classifier

Dit is een opsomming van tarieven die regelmatig vanuit een perplexiteitsnetwerk worden verwerkt voor een dubbele classifier:

Nauwkeurigheid : Hoe regelmatig is de classifier over het algemeen juist?

(TP+TN)/all out = (100+50)/165 = 0,91

Misclassificatiegraad: Hoe regelmatig is het over het algemeen fout?

(FP+FN)/all out = (10+5)/165 = 0,09

evenredig met 1 korte Exactheid

anders genoemd “Mistake Rate”

True Positive Rate: Als het echt zo is, hoe vaak voorziet het dan ja?

TP/reëel ja = 100/105 = 0,95

anders genoemd “Effectiviteit” of “Beoordeling”.

Vals positief tarief: Als het stil is, hoe vaak voorziet het dan ja?

FP/reëel nee = 10/60 = 0,17

True Negative Rate: Wanneer het volledig is, hoe regelmatig voorziet het dan nee?

TN/reëel neen = 50/60 = 0,83

gelijk aan 1 korte valse positieve koers

anders genoemd “Expliciteerbaarheid”

Precisie : Als het echt voorspelt, hoe regelmatig is het dan goed?

TP/verwachte ja = 100/110 = 0,91

Pervalentie: Hoe regelmatig gebeurt de ja-toestand echt in ons voorbeeld?

echt ja/alles uit = 105/165 = 0,64

Een paar verschillende termen zijn ook de moeite van het verwijzen waard:

Invalid Mistake Rate: Dit is het middel waarmee u regelmatig niet gelijk zou hebben op de kans dat u over het algemeen op de leeuwendeelklasse anticipeert. (In ons model zou het ongeldige foutenpercentage 60/165=0,36 zijn in een dergelijk geval dat u over het algemeen echt verwachtte, u zou gewoon niet gelijk hebben voor de 60 “nee”-gevallen). Dit kan een nuttig patroon zijn om over uw classificator na te denken. In ieder geval zal de beste classificator voor een specifieke toepassing in sommige gevallen een hoger blunderpercentage hebben dan het percentage ongeldige fouten, zoals blijkt uit de Precision Catch 22.

Cohen’s Kappa: Dit is in principe een deel van hoe goed de classificator is uitgevoerd, in tegenstelling tot hoe goed het in wezen door enig toeval zou hebben gepresteerd. Uiteindelijk zal een model een hoge Kappa score hebben als er een groot onderscheid is tussen de precisie en de ongeldige blunder rate. (Meer inzichten over Cohen’s Kappa.)

F Score: Dit is een gewogen normaal van de echte positieve score (beoordeling) en de nauwkeurigheid. (Meer inzicht in de F-score.)

ROC Bend: Dit is een meestal gebruikte grafiek die de presentatie van een classificator over elke denkbare rand schetst. Het wordt gecreëerd door het plotten van de Echte Positieve Snelheid (y-pivot) tegen de Bogus Positieve Snelheid (x-hub) als u de limiet voor het degraderen van percepties naar een bepaalde klasse wijzigt. (Meer inzichten met betrekking tot ROC Bends.)

Tot slot, voor degenen onder u uit het universum van Bayesiaanse inzichten, hier is een levendige samenvatting van deze termen uit Applied Prescient Displaying:

In verband met Bayesiaanse metingen zijn de affectiviteit en explicietheid de beperkende waarschijnlijkheden, de alomtegenwoordigheid de vroegere, en de positieve/negatieve verwachte kwaliteiten de achterste waarschijnlijkheden.