Eine Verwirrungsmatrix ist eine Tabelle, die zur Beschreibung der Leistung eines Klassifizierungsmodells für einen Satz von Testdaten, für die die wahren Werte bekannt sind, verwendet wird. Die Verwirrungsmatrix selbst ist relativ einfach zu verstehen, aber die verwandte Terminologie kann verwirrend sein.

Ich musste einen “zügigen Referenzrahmen” für die Formulierung der Ratlosigkeit schaffen, da ich kein aktuelles Hilfsmittel finden konnte, das meinen Bedürfnissen entsprach: in der Einleitung minimiert, mit Zahlen statt mit Selbstbehauptungsfaktoren, und sowohl hinsichtlich der Gleichungen als auch der Sätze geklärt.

Wie wäre es, wenn wir mit einem Modell-Disarray-Gitter für einen parallelen Klassifikator beginnen (es kann jedoch zweifellos auf die Instanz mehrerer Klassen ausgedehnt werden):

Was können wir aus dieser Matrix lernen?

Es gibt zwei denkbare Klassen: “Ja” und “Nein”. Wenn wir zum Beispiel die Nähe einer Infektion voraussehen, würde “Ja” bedeuten, dass sie die Krankheit haben, und “Nein” würde bedeuten, dass sie die Krankheit nicht haben.

Der Klassifikator machte eine Summe von 165 Erwartungen (z.B. wurden 165 Patienten auf die Nähe dieser Infektion hin untersucht).

Von diesen 165 Fällen hat der Klassifizierer mehrfach “ja” und mehrfach “nein” vorweggenommen.

In Wirklichkeit haben 105 Patienten in diesem Beispiel die Infektion, 60 Patienten nicht.

Wie wäre es, wenn wir die grundlegendsten Begriffe, die ganze Zahlen (nicht Raten) sind, derzeit charakterisieren würden:

echte Positive (TP): Dies sind Fälle, in denen wir ja gesagt haben (sie haben die Krankheit), und sie haben die Krankheit.

echte Negative (TN): Wir sagten nein voraus, und sie haben die Krankheit nicht.

falsch positiv (FP): Wir haben es vorhergesagt, aber sie haben die Krankheit nicht wirklich. (Auch bekannt als “Typ I-Fehler”)

falsche Negative (FN): Wir haben das nicht vorhergesagt, aber sie haben die Krankheit tatsächlich. (Auch bekannt als “Typ II-Fehler”)

Ich habe diese Begriffe in die Verwirrungsmatrix aufgenommen und auch die Zeilen- und Spaltensummen hinzugefügt:

Es gibt zwei denkbare Klassen: “Ja” und “Nein”. Wenn wir zum Beispiel die Nähe einer Krankheit voraussehen, würde “Ja” bedeuten, dass sie die Infektion haben, und “Nein” würde bedeuten, dass sie die Krankheit nicht haben.

Der Klassifikator machte eine Summe von 165 Erwartungen (z.B. wurden 165 Patienten wegen der Nähe dieser Krankheit getestet).

Von diesen 165 Fällen hat der Klassifizierer mehrfach “ja” und mehrfach “nein” vorweggenommen.

In der Regel haben im Beispiel 105 Patienten die Krankheit, 60 Patienten nicht.

Wir sollten nun die wesentlichsten Begriffe charakterisieren, die ganze Zahlen (nicht Raten) sind:

echte Positive (TP): Dies sind Fälle, in denen wir ja gesagt haben (sie haben die Krankheit), und sie haben die Krankheit.

echte Negative (TN): Wir sagten nein voraus, und sie haben die Krankheit nicht.

falsch positiv (FP): Wir haben es vorhergesagt, aber sie haben die Krankheit nicht wirklich. (Auch bekannt als “Typ I-Fehler”)

falsche Negative (FN): Wir haben das nicht vorhergesagt, aber sie haben die Krankheit tatsächlich. (Auch bekannt als “Typ II-Fehler”)

Ich habe diese Begriffe dem Disarray-Gitter hinzugefügt und darüber hinaus die Linien- und Segment-Aggregate einbezogen: Können wir aus dieser Matrix nicht lernen?

Dies ist eine Auflistung von Raten, die regelmäßig von einem Perplexitätsnetz für einen Doppelklassifikator verarbeitet werden:

Genauigkeit : Wie regelmäßig ist der Klassifikator im Allgemeinen richtig?

(TP+TN)/alle aus = (100+50)/165 = 0,91

Fehlklassifikationsrate: Wie regelmäßig ist es im Großen und Ganzen falsch?

(FP+FN)/alles aus = (10+5)/165 = 0,09

im Verhältnis zu 1 kurz Exaktheit

auch “Fehlerquote” genannt

Wahrhaft positive Rate: Wenn es wirklich so ist, wie oft sieht es dann ein Ja vor?

TP/real ja = 100/105 = 0,95

auch “Beeinflussbarkeit” oder “Überprüfung” genannt

Falsch-positive Rate: Wenn es ruhig ist, wie oft sieht es dann ein Ja vor?

FP/Real Nr. = 10/60 = 0,17

Echte Negativ-Rate: Wenn sie vollständig ist, wie regelmäßig sieht sie dann ein Nein vor?

TN/reale Nr. = 50/60 = 0,83

gleich 1 kurze Falsch-Positiv-Rate

auch “Explizität” genannt

Präzision : Wenn sie wirklich vorhersagt, wie regelmäßig ist sie dann richtig?

TP/vorhergesehen ja = 100/110 = 0,91

Durchgängigkeit: Wie regelmäßig tritt die Ja-Situation in unserem Beispiel wirklich ein?

echtes Ja/Alles raus = 105/165 = 0,64

Einige verschiedene Begriffe sind ebenfalls eine Erwähnung wert:

Ungültige Fehlerquote: Dies ist das Mittel, mit dem Sie regelmäßig nicht auf den Zufall hereinfallen würden, dass Sie generell die größte Aktienklasse vorweggenommen haben. (In unserem Modell würde die Ungültigkeitsfehlerrate 60/165=0,36 betragen, in einem solchen Fall, den Sie im Allgemeinen wirklich erwartet haben, wären Sie für die 60 “Nein”-Fälle einfach nicht richtig). Dies kann eine hilfreiche Mustermetrik sein, um über Ihren Klassifikator nachzudenken. In jedem Fall wird der beste Klassifikator für eine bestimmte Anwendung in einigen Fällen eine höhere Fehlerrate aufweisen als die Rate der ungültigen Fehler, wie der Precision Catch 22 zeigt.

Cohens Kappa: Das ist im Grunde ein Anteil daran, wie gut der Klassifikator ausgeführt wurde, wenn man ihn mit der Leistung vergleicht, die er im Wesentlichen durch einen Zufall erbracht hätte. Am Ende des Tages wird ein Modell eine hohe Kappa-Punktzahl haben, wenn es einen großen Unterschied zwischen der Präzision und der ungültigen Fehlerrate gibt. (Weitere Erkenntnisse über Cohen’s Kappa.)

F Partitur: Dies ist ein gewichteter Normalwert der wirklich positiven Rate (Überprüfung) und der Genauigkeit. (Weitere Erkenntnisse zur F-Punktzahl.)

ROC Bend: Dies ist ein üblicherweise verwendetes Diagramm, das die Darstellung eines Klassifikators über jede denkbare Kante umreißt. Sie wird durch Auftragen der Rate der echten positiven (y-Pivot) gegen die Rate der gefälschten positiven (x-Hub) erstellt, wenn Sie die Grenze für die Zurückweisung von Wahrnehmungen in eine bestimmte Klasse ändern. (Weitere Einblicke in Bezug auf ROC-Kurven).

Für diejenigen unter Ihnen, die aus dem Universum der Bayesianischen Einsichten kommen, folgt schließlich noch eine zügige Zusammenfassung dieser Begriffe aus dem Bereich des Applied Prescient Displaying:

Im Zusammenhang mit Bayes’schen Messungen sind die Beeinflussbarkeit und Explizität die restriktiven Wahrscheinlichkeiten, die Durchgängigkeit ist die frühere, und die positiv/negativ erwarteten Qualitäten sind die rückwärtigen Wahrscheinlichkeiten.