Chi-Test

Bei der Entwicklung eines Modells für maschinelles Lernen können Sie auf zahlreiche Probleme stoßen. Ein häufiges Problem im Zusammenhang mit der Feature-Auswahl ist die Frage, wie relevant die Eingabefeatures für die prädiktive Ausgabe sind. Sie können statistische Tests verwenden, um zu verstehen, wie die Ausgabevariable von der Eingabevariable abhängt. Diese Tests sind hilfreich, wenn die Eingabevariablen eindeutig sind. Wenn das Ergebnis anzeigt, dass die Ausgabe unabhängig ist, sollten Sie die Eingabevariable entfernen, da sie für das Problem irrelevant ist. Mit dem Chi-Quadrat-Test von Pearson können Sie feststellen, ob die kategorialen Variablen unabhängig sind oder nicht.
Ein Chi-Quadrat-Test ist ein statistisches Verfahren zur Bestimmung der Beziehung zwischen zwei Variablen in einem ähnlichen Datensatz. Wir können das Konzept anhand des folgenden Beispiels verstehen:
Nehmen wir an, dass ein Forscher eine Beziehung zur Einstufung von Studenten in eine Abteilung basierend auf ihren CGPAs herausfinden möchte. Er wird zufällige Datensätze der Abteilung für die letzten fünf Jahre extrahieren. Er wird die Anzahl der Studenten und ihren CGPA aufzeichnen, die für diese Kategorie zur Verfügung standen, d.h. unter 6, 6-7, 7-8, 8-9, 9-10.
Wenn er keine Beziehung zwischen der Platzierung der Studenten und ihrem CGPA finden konnte, sollte er die Studenten gleichmäßig in verschiedene Kategorien aufteilen. Wenn jedoch alle Studenten in einer Kategorie einen CGPA von mehr als 8 haben, dann werden die Studenten unterhalb dieser Punktzahl in keine Kategorie eingeordnet.
Da der Chi-Test ein statistischer Test ist, beinhaltet er einige Annahmen:
– Sie erhalten die Daten durch eine zufällige Auswahl aus dem Datensatz.
– Jeder Proband wird nur in eine einzige Kategorie passen. Wenn Sie z. B. nur die Anzahl der Mitarbeiter betrachten, die am Montag nicht verfügbar waren, können Sie diese am Dienstag nicht einbeziehen.
– Sie müssen die Daten in Zählungen oder Häufigkeiten erfassen. Betrachten Sie die Daten nicht in Prozent.
– Die Daten sollten keine Gruppen enthalten, da dies die Beobachtungen beeinflussen würde.
– Sie können Chi-Quadrat nicht verwenden, wenn der Wert von 20 % erwarteter Häufigkeiten unter 5 liegt.
Führen Sie die folgenden Schritte aus, um den Test durchzuführen und die zuverlässigen Variablen zu finden:
1. Identifizieren der Hypothese
2. Erstellen einer Kontingenztabelle
3. Bestimmen der Erwartungswerte
4. Berechnen der Chi-Quadrat-Statistik
5. Akzeptieren und Verwerfen der Nullhypothese
Die Nullhypothese oder H1 würde besagen, dass die beiden Variablen unabhängig sind. Sie werden jedoch auch eine Alternativhypothese oder H1 aufstellen. Diese besagt, dass die beiden Variablen nicht unabhängig sind.
In diesem Schritt erstellen Sie eine Kontingenztabelle, die die Verteilung der beiden Variablen angibt. Platzieren Sie die erste Variable in einer Zeile und die anderen Variablen in einer Spalte. Diese Tabelle wird Ihnen helfen, die Beziehung zwischen den beiden Variablen zu verstehen.
Die Kontingenztabelle wird auch die Freiheitsgrade enthalten. Sie werden die Freiheitsgrade als (r-1)x(c-1) angeben. In dieser Gleichung steht r für die Zeilen und c für die Spalten. Hier:
Df = (2-1) x (2-1) = 1
Aus der obigen Tabelle haben wir alle beobachteten Werte ermittelt. Als nächstes werden wir die erwarteten Werte ermitteln. Dazu müssen wir den Chi-Quadrat-Wert finden und die Beziehung identifizieren.
Gemäß der Nullhypothese sind die beiden Variablen nicht abhängig. Daher können wir die folgende Gleichung betrachten, indem wir annehmen, dass A und B zwei verschiedene, unabhängige Ereignisse sind:
Nun können wir den Erwartungswert aus der ersten Zelle berechnen. Die erste Zelle enthält die Männer, die aus der Bank ausgetreten sind.
In ähnlicher Weise können wir mit der gleichen Gleichung auch die Ergebnisse für andere Zellen bestimmen. Hier ist das Ergebnis:
Wir können nun den Chi-Quadrat-Wert bestimmen, indem wir die berechneten erwarteten Werte und die beobachteten Werte in die Tabelle unten eintragen:
In der obigen Tabelle stehen O für die beobachteten Werte und E für die erwarteten Werte. Unter Berücksichtigung der Formel für die Chi-Quadrat-Statistik für den obigen Wert haben wir den Chi-Quadrat-Wert von 2,22 gefunden.
Nun können wir prüfen, ob das berechnete Chi-Quadrat mit 95 % Konfidenz akzeptiert oder verworfen werden sollte. Das Konfidenzintervall ist Alpha, das gleich 0,05 ist. Indem wir die Werte einsetzen, die wir aus den obigen Formeln errechnet haben, können wir herausfinden, ob das Chi-Quadrat angenommen oder abgelehnt werden sollte.
– Freiheitsgrad = 1 (entsprechend der Kontingenztabelle)
– Alpha = 0,05
– Chi-Quadrat-Wert = 3,84
Sie können den Chi-Quadrat-Wert anhand dieser Tabelle ermitteln.
Da es einen großen Unterschied zwischen den beobachteten Werten und den erwarteten Werten gibt, wird die Verteilung auf die rechte Seite fallen.
Aus der obigen Abbildung können wir entnehmen, dass der Wert von Chi-Quadrat zwischen 0 und inf liegt. Das Alpha liegt jedoch in der entgegengesetzten Richtung und reicht von 0 bis 1. Wenn der Chi-Quadrat-Wert in den Fehlerbereich fällt, müssen Sie die Nullhypothese ablehnen. Der Fehlerbereich ist das Alpha und liegt im Bereich zwischen 0 und 0,05. Im obigen Beispiel ist der Chi-Quadrat-Wert jedoch niedriger als der kritische Chi-Quadrat-Wert, sodass Sie die Nullhypothese akzeptieren.
Wenn Sie den obigen Zusammenhang über den Chi-Quadrat-Test verstanden haben, können Sie sich ein klares Bild von dem Konzept machen. Denken Sie daran, dass der Test Ihnen hilft, die Beziehung zwischen beobachteten und geschätzten Werten zu identifizieren. Außerdem zeigt er an, ob die Variablen abhängig oder unabhängig sind. Sie können jedoch nicht feststellen, warum diese Variablen abhängig sind und in welcher Beziehung sie zueinander stehen.