Der Klassifizierungsprozess hilft bei der Einteilung des Datensatzes in verschiedene Klassen. Ein Modell für maschinelles Lernen ermöglicht es Ihnen,:
– Das Problem zu formulieren,
– Sammeln Sie die Daten,
– Hinzufügen der Variablen,
– das Modell trainieren,
– Messen Sie die Leistung,
– Verbessern des Modells mit Hilfe der Kostenfunktion.
Aber wie können wir die Leistung eines Modells messen? Indem man das vorhergesagte und das tatsächliche Modell vergleicht? Damit ist das Klassifikationsproblem jedoch nicht gelöst. Eine Konfusionsmatrix kann Ihnen helfen, die Daten zu analysieren und das Problem zu lösen. Lassen Sie uns verstehen, wie diese Technik dem maschinellen Lernmodell hilft.
Konfusionsmatrix
Die Konfusionsmatrix-Technik hilft bei der Leistungsmessung für die Klassifizierung durch maschinelles Lernen. Mit dieser Art von Modell können Sie das Modell mit den bekannten wahren Werten auf dem Testdatensatz unterscheiden und klassifizieren. Der Begriff Konfusionsmatrix ist einfach, aber verwirrend. In diesem Artikel wird das Konzept vereinfacht, sodass Sie es leicht verstehen und selbst eine Konfusionsmatrix erstellen können.
Berechnen der Konfusionsmatrix
Folgen Sie diesen einfachen Schritten, um die Konfusionsmatrix für Data Mining zu berechnen:
Schritt 1
Schätzen Sie die Ergebniswerte des Datensatzes.
Schritt 2
Testen Sie den Datensatz mit Hilfe der erwarteten Ausgabe.
Schritt 3
Sagen Sie die Zeilen in Ihrem Testdatensatz voraus.
Schritt 4
Berechnen Sie die erwarteten Ergebnisse und Vorhersagen. Sie müssen die berücksichtigen:
– Summe der richtigen Vorhersagen der Klasse
– Summe der falschen Vorhersagen der Klasse
Nachdem Sie diese Schritte durchgeführt haben, müssen Sie die Zahlen in den folgenden Methoden organisieren:
– Verknüpfen Sie jede Zeile der Matrix mit der vorhergesagten Klasse
– Verknüpfen Sie jede Spalte der Matrix mit der tatsächlichen Klasse
– Tragen Sie die richtige und falsche Klassifizierung des Modells in die Tabelle ein
– Fügen Sie die Summe der richtigen Vorhersagen in die Spalte vorhergesagt ein. Fügen Sie außerdem den Klassenwert in die erwartete Zeile ein.
– Fügen Sie die Summe der falschen Vorhersagen in die erwartete Zeile und den Klassenwert in die vorhergesagte Spalte ein.
Verstehen des Ergebnisses in einer Konfusionsmatrix
1. Wahr positiv
Der tatsächliche und der vorhergesagte Wert sind identisch. Der vorhergesagte Wert des Modells ist positiv, zusammen mit einem tatsächlichen positiven Wert.
2. Wahr Negativ
Der tatsächliche und der vorhergesagte Wert sind identisch. Der vorhergesagte Wert des Modells ist negativ, zusammen mit einem tatsächlichen negativen Wert.
3. Falsch positiv (Fehler vom Typ 1)
Der tatsächliche und der vorhergesagte Wert sind nicht identisch. Der vorhergesagte Wert des Modells ist positiv und fälschlicherweise vorhergesagt. Der tatsächliche Wert ist jedoch negativ. Man kann dies als Fehler vom Typ 1 bezeichnen.
4. Falsches Negativ (Fehler vom Typ 2)
Der tatsächliche und der vorhergesagte Wert sind nicht identisch. Der vorhergesagte Wert des Modells ist negativ und falsch vorhergesagt. Der tatsächliche Wert ist jedoch positiv. Man kann diesen Fehler als Fehler vom Typ 2 bezeichnen.
Wichtigkeit der Konfusionsmatrix
Bevor wir die Frage beantworten, sollten wir das hypothetische Klassifikationsproblem verstehen. Angenommen, Sie sagen die Anzahl der Personen voraus, die mit dem Virus infiziert sind, bevor sie Symptome zeigen. Auf diese Weise können Sie sie leicht isolieren und eine gesunde Bevölkerung sicherstellen. Wir können zwei Variablen wählen, um die Zielpopulation zu definieren: Infizierte und Nicht-Infizierte.
Jetzt denken Sie vielleicht, warum eine Konfusionsmatrix verwenden, wenn die Variablen zu einfach sind. Nun, diese Technik hilft bei der Genauigkeit der Klassifizierung. Die Daten in diesem Beispiel sind der unausgewogene Datensatz. Nehmen wir an, wir haben 947 negative Datenpunkte und drei positive Datenpunkte. Nun werden wir die Genauigkeit mit dieser Formel berechnen:
Mit Hilfe der folgenden Tabelle können Sie die Genauigkeit überprüfen:
Die gesamten Ausgabewerte werden sein:
TP = 30, TN = 930, FP = 30, FN = 10
Sie können also die Genauigkeit des Modells berechnen als:
96% Genauigkeit für ein Modell ist unglaublich. Aber Sie können aus dem Ergebnis nur eine falsche Vorstellung generieren. Nach diesem Modell können Sie die infizierten Personen in 96% der Fälle vorhersagen. Die Berechnung sagt aber voraus, dass 96% der Bevölkerung nicht infiziert werden. Dennoch verbreiten kranke Menschen das Virus weiter.
Sieht dieses Modell wie eine perfekte Lösung für das Problem aus, oder sollten wir die positiven Fälle messen und sie isolieren, um die Ausbreitung des Virus zu stoppen. Deshalb verwenden wir eine Konfusionsmatrix, um diese Art von Problemen zu lösen. Hier sind einige Vorteile der Konfusionsmatrix:
– Die Matrix hilft bei der Klassifizierung des Modells während der Erstellung der Vorhersagen
– Diese Technik kennzeichnet die Art und den Einblick der Fehler, so dass Sie den Fall leicht verstehen können
– Sie können die Einschränkung mit der genauen Klassifizierung der Daten überwinden
– Die Spalten der Konfusionsmatrix stellen die Instanzen der vorhergesagten Klasse dar
– Jede Zeile zeigt die Instanzen der tatsächlichen Klasse an
– Die Konfusionsmatrix hebt die Fehler hervor, die der Klassifikator
Konfusionsmatrix in Python
Da Sie nun das Konzept der Konfusionsmatrix kennen, können Sie den folgenden Code in Python mit Hilfe der Scikit-learn-Bibliothek üben.
# Konfusionsmatrix in sklearn
fromsklearn.metricsimportconfusion_matrix
fromsklearn.metricsimportclassification_report
# tatsächliche Werte
actual = [1,0,0,1,0,0,1,0,0,1]
# vorhergesagte Werte
vorhergesagt = [1,0,0,1,0,0,0,1,0,0]
# Konfusionsmatrix
matrix =confusion_matrix(actual,predicted, labels=[1,0])
print(‘Konfusionsmatrix : \n’,matrix)
# Reihenfolge der Ergebniswerte in sklearn
tp, fn, fp, tn=confusion_matrix(actual,predicted,labels=[1,0]).reshape(-1)
print(‘Ergebniswerte : \n’, tp, fn, fp, tn)
# Klassifizierungsbericht für Präzision, Recall f1-Score und Genauigkeit
matrix =Klassifizierungsbericht(aktuell,vorhergesagt,labels=[1,0])
print(‘Klassifizierungsbericht : \n’,matrix)
Schlussfolgerung
Die Konfusionsmatrix hilft bei der Einschränkung der Genauigkeit der Klassifizierungsmethode. Außerdem hebt sie wichtige Details über verschiedene Klassen hervor. Außerdem analysiert sie die Variablen und die Daten, sodass Sie die tatsächlichen Daten mit der Vorhersage vergleichen können.