Auswahl der richtigen Maße für Auftragsunternehmen

Okay, akzeptieren Sie jemanden, der sich dazu bekannt hat, ein Modell vollständig in seinem Kopf zu erstellen, um psychologische Unterdrücker zu erkennen, die versuchen, Flüge mit einer bemerkenswerten Genauigkeit von mehr als 99% aufzuladen? Alles in allem, hier ist das Modell: Markieren Sie einfach jeden, der von einem US-Flughafen aus fliegt, als keinen psychologischen Kämpfer. Angesichts der 800 Millionen normalen Reisenden, die jedes Jahr auf US-Flügen mitfliegen, und der 19 (bestätigten) Angstmacher, die von 2000 bis 2017 auf US-Flüge geladen haben, erreicht dieses Modell eine erstaunliche Genauigkeit von 99,999999999%! Das mag erstaunlich klingen, aber ich bezweifle, dass die US-Division of Country Security zu keinem Zeitpunkt in naher Zukunft anrufen wird, um dieses Modell zu kaufen. Diese Anordnung hat zwar eine fast makellose Genauigkeit, aber in dieser Frage ist Präzision offensichtlich kein zufriedenstellendes Maß!

Die Entdeckungsaufgabe der Angstmacher ist eine Frage der unausgewogenen Anordnung: Wir haben zwei Klassen zu unterscheiden – psychologische Unterdrücker und nicht psychologische Unterdrücker – wobei eine Klassifikation für den größten Teil der Informationsschwerpunkte spricht. Ein weiteres Problem der unausgewogenen Anordnung tritt bei der Identifizierung von Infektionen auf, wenn das Krankheitstempo bei Menschen im Allgemeinen extrem niedrig ist. In beiden Fällen wird die positive Klasse – Krankheit oder psychologischer Unterdrücker – durch die negative Klasse enorm in den Schatten gestellt. Diese Art von Problemen sind Beispiele für den wirklich normalen Fall in der Informationswissenschaft, wo Präzision sicherlich kein anständiges Maß für die Vermessung der Modellausführung ist.

Instinktiv wird uns klar, dass die Ausstrahlung aller Informationsschwerpunkte als negativ in der auf Angst basierenden Unterdrücker-Identifikationsproblematik nicht sinnvoll ist und wir uns vielmehr darauf konzentrieren sollten, die positiven Fälle zu erkennen. Die Metrik, die uns unser Instinkt offenbart und die wir verstärken sollten, wird bei Messungen als Überprüfung bezeichnet, oder als die Fähigkeit eines Modells, alle zutreffenden Fälle innerhalb eines Datensatzes zu entdecken. Die genaue Bedeutung der Überprüfung ist die Anzahl der echten Positivfälle, geteilt durch die Anzahl der echten Positivfälle zusätzlich zur Anzahl der gefälschten Negativfälle. Echte Positive sind vom Modell als positiv benannte Informationspunkte, die wirklich sicher sind (was bedeutet, dass sie richtig sind), und Scheinnegative sind Informationsschwerpunkte, die das Modell als negativ unterscheidet und die wirklich sicher (falsch) sind. Im Fall der angstbasierten Unterdrückung sind echte Positive effektiv anerkannte psychologische Unterdrücker, und Schein-Negative wären Menschen, die das Modell als nicht psychologische Militante kennzeichnet, die in Wirklichkeit Angstmacher waren. Eine Überprüfung kann man sich als die Fähigkeit eines Modells vorstellen, jeden einzelnen der Informationsschwerpunkte in einem Datensatz zu entdecken.

Sie sehen vielleicht etwas über diesen Zustand: Für den unwahrscheinlichen Fall, dass wir alle Menschen als psychologische Kämpfer benennen, geht unsere Überprüfung an diesem Punkt auf 1,0! Wir haben einen idealen Klassifikator, richtig? Alles in allem eigentlich nicht. Ebenso gibt es bei den meisten Ideen in der Informationswissenschaft einen Austausch bei den Messungen, für die wir uns entscheiden, sie zu erweitern. Wenn wir aufgrund der Überprüfung die Überprüfung inkrementieren, lehnen wir die Genauigkeit ab. Wieder einmal stellen wir instinktiv fest, dass ein Modell, das 100 % der Reisenden als psychologische Kämpfer markiert, höchstwahrscheinlich nicht hilfreich ist angesichts der Tatsache, dass wir dann allen das Fliegen verbieten müssten. Messungen liefern uns den Jargon, um unseren Instinkt auszudrücken: Dieses neue Modell würde die negativen Auswirkungen einer geringen Genauigkeit erfahren, oder die Fähigkeit eines Arrangement-Modells, nur die zutreffenden Informationsschwerpunkte zu erkennen.

Die Genauigkeit wird charakterisiert als die Anzahl der echten Positive, getrennt durch die Anzahl der echten Positive zusätzlich zu der Anzahl der Scheinpositive. Scheinpositive sind Fälle, die das Modell fälschlicherweise als positiv benennt und die wirklich negativ sind, oder in unserem Modell Menschen, die das Modell als angstbasierte Unterdrücker anordnet, die es ganz sicher nicht sind. Während die Überprüfung die Fähigkeit vermittelt, jedes einzelne relevante Beispiel in einem Datensatz zu lokalisieren, vermittelt die Genauigkeit das Ausmaß der Informationsschwerpunkte, von denen unser Modell sagt, dass sie signifikant waren und wirklich wichtig waren.

Gegenwärtig können wir feststellen, dass unser erstes Modell, das alle Menschen als nicht psychologische Kämpfer benannte, nicht sehr hilfreich war. Trotz der Tatsache, dass es eine nahezu tadellose Genauigkeit hatte, hatte es 0 Genauigkeit und 0 Bewertungen mit der Begründung, dass es keine offensichtlichen positiven Aspekte gab! Nehmen wir an, wir ändern das Modell geringfügig und unterscheiden ein einzelnes Individuum effektiv als psychologischen Unterdrücker. Gegenwärtig wird unsere Genauigkeit 1,0 betragen (keine Scheinpositive), doch unsere Überprüfung wird extrem niedrig sein, da wir in jedem Fall zahlreiche Scheinnegative haben werden. Für den Fall, dass wir zum nächsten Empörer gehen und alle Reisenden als auf Furcht basierende Unterdrücker arrangieren, werden wir eine Bewertung von 1,0 haben – wir werden jeden psychologischen Militanten bekommen – doch unsere Genauigkeit wird gering sein, und wir werden zahlreiche ehrliche Leute behalten. Am Ende des Tages, wenn wir die Genauigkeit erhöhen, lehnen wir eine Überprüfung ab und umgekehrt.

Konsolidierung von Genauigkeit und Überprüfung

Unter bestimmten Umständen können wir erkennen, dass wir entweder die Überprüfung oder die Genauigkeit zum Nachteil der anderen Messung erhöhen müssen. Zum Beispiel würden wir bei der Erstuntersuchung von Patienten für Folgeuntersuchungen höchstwahrscheinlich eine Überprüfung nahe 1,0 benötigen – wir müssen alle Patienten entdecken, die wirklich an der Krankheit leiden – und wir können eine geringe Genauigkeit anerkennen, wenn der Aufwand für die Folgeuntersuchung nicht enorm ist. Wie dem auch sei, in Situationen, in denen wir eine ideale Mischung aus Genauigkeit und Überprüfung finden müssen, können wir die beiden Messungen unter Verwendung des so genannten F1-Scores verbinden.

Der F1-Score ist der konsonante Mittelwert von Genauigkeit und Überprüfung unter Berücksichtigung der beiden Messungen in der Begleitbedingung:

Wir verwenden den konsonanten Mittelwert und nicht einen einfachen Normalwert, da er außergewöhnliche Qualitäten abweist. Ein Klassifizierer mit einer Genauigkeit von 1,0 und einer Überprüfung von 0,0 hat eine Grundnormale von 0,5, jedoch eine F1-Bewertung von 0. Die F1-Bewertung gibt eine äquivalente Belastung für die beiden Maße und ist ein besonderer Fall der allgemeinen Metrik Fβ, bei der β akklimatisiert werden kann, um entweder der Überprüfung oder der Genauigkeit mehr Gewicht zu geben. (Es gibt verschiedene Maße zur Konsolidierung der Genauigkeit und Überprüfung, z.B. den geometrischen Mittelwert der Genauigkeit und Überprüfung, doch der F1-Wert ist das am häufigsten verwendete). Für den Fall, dass wir ein anständiges Ordnungsmodell mit dem idealen Ausgleich von Überprüfung und Genauigkeit erstellen müssen, versuchen wir an diesem Punkt, den F1-Wert zu verstärken.

Vorstellungsgenauigkeit und Überprüfung

Ich habe Ihnen ein paar neue Begriffe vorgelegt, und wir werden durch einen Leitfaden schlendern, um zu zeigen, wie sie in der Praxis verwendet werden. Bevor wir jedoch ankommen können, müssen wir schnell zwei Ideen diskutieren, die zur Angabe der Genauigkeit und zur Überprüfung verwendet werden.

Zunächst ist die Verwirrungsmatrix zu nennen, die angesichts der zu erwartenden Noten eines Modells für eine rasche Feststellung der Genauigkeit und Überprüfung wertvoll ist. Ein Durcheinandergitter zur parallelen Charakterisierung zeigt die vier verschiedenen Ergebnisse: echt positiv, falsch positiv, echt negativ und falsch negativ. Die echten Eigenschaften strukturieren die Abschnitte, und die erwarteten Eigenschaften (Noten) strukturieren die Linien. Der Kreuzungspunkt der Linien und Abschnitte zeigt eines der vier Ergebnisse. Zum Beispiel ist der Zufall, dass wir einen Informationspunkt sicher voraussehen, aber er ist wirklich negativ, das ist ein Scheinpositiv.

Um von der Unübersichtlichkeit des Rasters zur Überprüfung und Genauigkeit zu gelangen, müssen die einzelnen Wertschätzungen im Netzwerk gefunden und die Bedingungen angewendet werden:

Die andere primäre Darstellungsstrategie zur Anzeige der Ausstellung eines Charakterisierungsmodells ist die Recipient Working Trademark (ROC)-Kurve. Versuchen Sie nicht, dem verstrickten Namen eine Chance zu geben, Sie zu vertreiben! Der Gedanke ist im Allgemeinen grundlegend: Die ROC-Kurve zeigt, wie sich die Beziehung zwischen Überprüfung und Genauigkeit ändert, wenn wir die Grenze für die Erkennung eines Positivs in unserem Modell verschieben. Die Grenze spricht den Anreiz an, ab dem ein Informationspunkt in der positiven Klasse berücksichtigt wird. Für den Fall, dass wir ein Modell zur Unterscheidung einer Infektion haben, kann unser Modell für jeden Patienten einen Score irgendwo im Bereich zwischen 0 und 1 ergeben, und wir können in diesem Bereich einen Rand für die Benennung eines Patienten als erkrankt (einen positiven Namen) festlegen. Durch Modifizieren der Grenze können wir versuchen, die richtige Balance zwischen Genauigkeit und Überprüfung zu erreichen.

Ein ROC-Bogen stellt die echte positive Rate auf dem y-Hub gegenüber der gefälschten positiven Rate auf dem x-Hub dar. Die echt positive Rate (TPR) ist die Überprüfung und die falsch positive Rate (FPR) ist die Wahrscheinlichkeit einer falschen Vorsicht. Beide lassen sich aus dem Perplexitätsrahmen bestimmen:

Eine typische ROC-Kurve ist unten dargestellt:

Die dunkle schräge Linie zeigt einen unregelmäßigen Klassifikator und die roten und blauen Biegungen zeigen zwei charakteristische Anordnungsmodelle. Bei einem bestimmten Modell können wir einfach auf einer Krümmung bleiben, können uns jedoch entlang der Krümmung bewegen, indem wir unsere Kante für die Anordnung eines positiven Falls verändern. Wenn wir die Kante abnehmen, bewegen wir uns in den meisten Fällen entlang der Krümmung zu einer Seite und nach oben. Bei einem Grenzwert von 1,0 wären wir in der unteren linken Ecke des Diagramms, da wir keine Informationen als positiv kennzeichnen, die keine offensichtlichen und keine Scheinpositive (TPR = FPR = 0) bewirken. Wenn wir die Kante verkleinern, erkennen wir mehr Informationsschwerpunkte als positiv, was zu umso offensichtlicheren, aber zusätzlich zu umso mehr Scheinpositiven führt (das TPR- und FPR-Inkrement). Am Ende erkennen wir bei einer Kante von 0,0 alle Informationsfokusse als positiv und landen in der oberen rechten Ecke der ROC-Kurve (TPR = FPR = 1,0).

Zuletzt können wir den ROC-Bogen eines Modells bewerten, indem wir die gesamte Region Under the Bend (AUC) ermitteln, eine Kennzahl, die irgendwo im Bereich zwischen 0 und 1 liegt, wobei eine höhere Zahl eine bessere Ausführung des Arrangements demonstriert. Im obigen Diagramm ist die AUC für die blaue Krümmung stärker ausgeprägt als die für die rote Krümmung, was bedeutet, dass das blaue Modell eine bessere Mischung aus Genauigkeit und Überprüfung erreicht. Ein willkürlicher Klassifikator (die dunkle Linie) erreicht eine AUC von 0,5.