Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Bei der Entwicklung eines Modells für maschinelles Lernen können Sie auf zahlreiche Probleme stoßen. Ein häufiges Problem im Zusammenhang mit der Feature-Auswahl ist die Frage, wie relevant die Eingabefeatures für die prädiktive Ausgabe sind. Sie können statistische Tests verwenden, um zu verstehen, wie die Ausgabevariable von der Eingabevariable abhängt. Diese Tests sind hilfreich, wenn die Eingabevariablen eindeutig sind. Wenn das Ergebnis anzeigt, dass die Ausgabe unabhängig ist, sollten Sie die Eingabevariable entfernen, da sie für das Problem irrelevant ist. Mit dem Chi-Quadrat-Test von Pearson können Sie feststellen, ob die kategorialen Variablen unabhängig sind oder nicht.

Was ist ein Chi-Quadrat-Test?

Ein Chi-Quadrat-Test ist ein statistisches Verfahren zur Bestimmung der Beziehung zwischen zwei Variablen in einem ähnlichen Datensatz. Wir können das Konzept anhand des folgenden Beispiels verstehen:
Nehmen wir an, dass ein Forscher eine Beziehung zur Einstufung von Studenten in eine Abteilung basierend auf ihren CGPAs herausfinden möchte. Er wird zufällige Datensätze der Abteilung für die letzten fünf Jahre extrahieren. Er wird die Anzahl der Studenten und ihren CGPA aufzeichnen, die für diese Kategorie zur Verfügung standen, d.h. unter 6, 6-7, 7-8, 8-9, 9-10.
Wenn er keine Beziehung zwischen der Platzierung der Studenten und ihrem CGPA finden konnte, sollte er die Studenten gleichmäßig in verschiedene Kategorien aufteilen. Wenn jedoch alle Studenten in einer Kategorie einen CGPA von mehr als 8 haben, dann werden die Studenten unterhalb dieser Punktzahl in keine Kategorie eingeordnet.

Annahmen des Tests

Da der Chi-Test ein statistischer Test ist, beinhaltet er einige Annahmen:
– Sie erhalten die Daten durch eine zufällige Auswahl aus dem Datensatz.
– Jeder Proband wird nur in eine einzige Kategorie passen. Wenn Sie z. B. nur die Anzahl der Mitarbeiter betrachten, die am Montag nicht verfügbar waren, können Sie diese am Dienstag nicht einbeziehen.
– Sie müssen die Daten in Zählungen oder Häufigkeiten erfassen. Betrachten Sie die Daten nicht in Prozent.
– Die Daten sollten keine Gruppen enthalten, da dies die Beobachtungen beeinflussen würde.
– Sie können Chi-Quadrat nicht verwenden, wenn der Wert von 20 % erwarteter Häufigkeiten unter 5 liegt.

Wie wird der Chi-Quadrat-Test durchgeführt?

Führen Sie die folgenden Schritte aus, um den Test durchzuführen und die zuverlässigen Variablen zu finden:
1. Identifizieren der Hypothese
2. Erstellen einer Kontingenztabelle
3. Bestimmen der Erwartungswerte
4. Berechnen der Chi-Quadrat-Statistik
5. Akzeptieren und Verwerfen der Nullhypothese

1. Identifizieren der Hypothese

Die Nullhypothese oder H1 würde besagen, dass die beiden Variablen unabhängig sind. Sie werden jedoch auch eine Alternativhypothese oder H1 aufstellen. Diese besagt, dass die beiden Variablen nicht unabhängig sind.

2. Erstellen einer Kontingenztabelle

In diesem Schritt erstellen Sie eine Kontingenztabelle, die die Verteilung der beiden Variablen angibt. Platzieren Sie die erste Variable in einer Zeile und die anderen Variablen in einer Spalte. Diese Tabelle wird Ihnen helfen, die Beziehung zwischen den beiden Variablen zu verstehen.

Die Kontingenztabelle wird auch die Freiheitsgrade enthalten. Sie werden die Freiheitsgrade als (r-1)x(c-1) angeben. In dieser Gleichung steht r für die Zeilen und c für die Spalten. Hier:
Df = (2-1) x (2-1) = 1
Aus der obigen Tabelle haben wir alle beobachteten Werte ermittelt. Als nächstes werden wir die erwarteten Werte ermitteln. Dazu müssen wir den Chi-Quadrat-Wert finden und die Beziehung identifizieren.

3. Bestimmen der erwarteten Werte

Gemäß der Nullhypothese sind die beiden Variablen nicht abhängig. Daher können wir die folgende Gleichung betrachten, indem wir annehmen, dass A und B zwei verschiedene, unabhängige Ereignisse sind:

Nun können wir den Erwartungswert aus der ersten Zelle berechnen. Die erste Zelle enthält die Männer, die aus der Bank ausgetreten sind.

In ähnlicher Weise können wir mit der gleichen Gleichung auch die Ergebnisse für andere Zellen bestimmen. Hier ist das Ergebnis:

4. Berechnen der Chi-Quadrat-Statistik

Wir können nun den Chi-Quadrat-Wert bestimmen, indem wir die berechneten erwarteten Werte und die beobachteten Werte in die Tabelle unten eintragen:

In der obigen Tabelle stehen O für die beobachteten Werte und E für die erwarteten Werte. Unter Berücksichtigung der Formel für die Chi-Quadrat-Statistik für den obigen Wert haben wir den Chi-Quadrat-Wert von 2,22 gefunden.

5. Akzeptieren und Ablehnen der Nullhypothese

Nun können wir prüfen, ob das berechnete Chi-Quadrat mit 95 % Konfidenz akzeptiert oder verworfen werden sollte. Das Konfidenzintervall ist Alpha, das gleich 0,05 ist. Indem wir die Werte einsetzen, die wir aus den obigen Formeln errechnet haben, können wir herausfinden, ob das Chi-Quadrat angenommen oder abgelehnt werden sollte.
– Freiheitsgrad = 1 (entsprechend der Kontingenztabelle)
– Alpha = 0,05
– Chi-Quadrat-Wert = 3,84
Sie können den Chi-Quadrat-Wert anhand dieser Tabelle ermitteln.
Da es einen großen Unterschied zwischen den beobachteten Werten und den erwarteten Werten gibt, wird die Verteilung auf die rechte Seite fallen.

Aus der obigen Abbildung können wir entnehmen, dass der Wert von Chi-Quadrat zwischen 0 und inf liegt. Das Alpha liegt jedoch in der entgegengesetzten Richtung und reicht von 0 bis 1. Wenn der Chi-Quadrat-Wert in den Fehlerbereich fällt, müssen Sie die Nullhypothese ablehnen. Der Fehlerbereich ist das Alpha und liegt im Bereich zwischen 0 und 0,05. Im obigen Beispiel ist der Chi-Quadrat-Wert jedoch niedriger als der kritische Chi-Quadrat-Wert, sodass Sie die Nullhypothese akzeptieren.

Schlussfolgerung

Wenn Sie den obigen Zusammenhang über den Chi-Quadrat-Test verstanden haben, können Sie sich ein klares Bild von dem Konzept machen. Denken Sie daran, dass der Test Ihnen hilft, die Beziehung zwischen beobachteten und geschätzten Werten zu identifizieren. Außerdem zeigt er an, ob die Variablen abhängig oder unabhängig sind. Sie können jedoch nicht feststellen, warum diese Variablen abhängig sind und in welcher Beziehung sie zueinander stehen.