Podczas tworzenia modelu uczenia maszynowego można napotkać wiele problemów. Jednym z powszechnych problemów związanych z wyborem cech jest określenie, jak istotne są cechy wejściowe dla przewidywanego wyniku. Można użyć testów statystycznych, aby zrozumieć, jak zmienna wyjściowa zależy od zmiennej wejściowej. Testy te są pomocne, gdy zmienne wejściowe są określone. Jeśli wynik wskazuje, że dane wyjściowe są niezależne, powinieneś usunąć zmienną wejściową, ponieważ jest ona nieistotna dla problemu. Test chi kwadrat Pearsona pozwoli określić, czy zmienne kategoryczne są niezależne czy nie.

Co to jest test Chi-kwadrat?

Test Chi-kwadrat jest techniką statystyczną służącą do określenia związku pomiędzy dwiema zmiennymi w podobnym zbiorze danych. Możemy zrozumieć tę koncepcję na następującym przykładzie:
Załóżmy, że badacz chce rozgryźć zależność polegającą na umieszczaniu studentów na wydziale w oparciu o ich CGPA. Wyodrębni on losowe rekordy wydziału z ostatnich pięciu lat. Zapisze liczbę studentów i ich CGPA, którzy byli dostępni dla tej kategorii, tj. poniżej 6, 6-7, 7-8, 8-9, 9-10.
Jeśli nie znalazłby żadnego związku między rozmieszczeniem studentów a ich CGPA, powinien równo podzielić studentów na różne kategorie. Jeśli jednak wszyscy studenci w danej kategorii mają CGPA powyżej 8, to studenci poniżej tego wyniku nie będą zaliczani do żadnej kategorii.

Założenia testu

Ponieważ test Chi jest testem statystycznym, zawiera on kilka założeń:
– Dane uzyskasz za pomocą losowego wyboru ze zbioru danych.
– Każdy badany będzie pasował tylko do jednej kategorii. Na przykład, jeśli weźmiesz pod uwagę liczbę pracowników, którzy nie byli dostępni tylko w poniedziałek, nie możesz ich uwzględnić we wtorek.
– Dane należy zbierać w postaci liczebności lub częstości. Nie należy brać pod uwagę danych w procentach.
– Dane nie powinny zawierać grup, ponieważ będzie to miało wpływ na obserwacje.
– Nie można użyć Chi-kwadrat, jeśli wartość 20% oczekiwanych częstości jest mniejsza niż 5.

Jak wykonać test Chi-kwadrat?

Wykonaj poniższe kroki, aby przeprowadzić test i znaleźć zmienne zależne:
1. Określenie hipotezy
2. Tworzenie tabeli kontyngencji
3. Określenie wartości oczekiwanych
4. Obliczanie statystyki Chi-kwadrat
5. Przyjmowanie i odrzucanie hipotezy zerowej

1. Identyfikacja hipotezy

Hipoteza zerowa lub H1 wskazywałaby, że obie zmienne są niezależne. Jednakże, będziesz również zawierał hipotezę alternatywną lub H1. Wskazuje ona, że obie zmienne nie są niezależne.

2. Tworzenie tabeli kontyngencji

W tym kroku utworzysz tabelę kontyngencji wskazującą rozkład obu zmiennych. Umieść pierwszą zmienną w wierszu, a pozostałe zmienne w kolumnie. Tabela ta pomoże Ci zrozumieć związek pomiędzy obiema zmiennymi.

Tabela zawiera również stopnie swobody. Stopnie swobody oznaczymy jako (r-1)x(c-1). W tym równaniu, r będzie oznaczać wiersze, a c kolumny. Tutaj:
Df = (2-1) x (2-1) = 1
Z powyższej tabeli odczytaliśmy wszystkie zaobserwowane wartości. Następnie, znajdziemy wartości oczekiwane. W tym celu musimy znaleźć wartość Chi-kwadrat i zidentyfikować zależność.

3. Określanie wartości oczekiwanych

Zgodnie z hipotezą zerową, dwie zmienne nie są zależne. Dlatego możemy rozważyć następujące równanie, zakładając, że A i B są dwoma różnymi, niezależnymi zdarzeniami:

Teraz możemy obliczyć wartość oczekiwaną z pierwszej komórki. W pierwszej komórce znajdują się mężczyźni, którzy odeszli z banku.

Analogicznie, używając tego samego równania, możemy wyznaczyć wyniki również dla innych komórek. Oto wynik:

4. Obliczanie statystyki Chi-Suqare’a

Możemy teraz wyznaczyć wartość Chi-kwadrat, umieszczając obliczone wartości oczekiwane i wartości obserwowane w poniższej tabeli:

 

W powyższej tabeli O oznaczono jako wartości obserwowane, a E jako wartości oczekiwane. Biorąc pod uwagę wzór na statystykę Chi-Square dla powyższej wartości, otrzymaliśmy Chi-Square równy 2,22.

5. Przyjęcie i odrzucenie hipotezy zerowej

Teraz możemy sprawdzić, czy powinniśmy zaakceptować lub odrzucić obliczony Chi-kwadrat z 95% pewnością. Poziom ufności to alfa, który jest równy 0,05. Podstawiając wartości, które wyliczyliśmy z powyższych wzorów, możemy stwierdzić, czy należy przyjąć, czy odrzucić Chi-kwadrat.
– Stopień swobody = 1 (zgodnie z tabelą kontyngencji)
– Alfa = 0,05
– Wartość Chi-kwadrat = 3,84
Możesz znaleźć wartość Chi-kwadrat korzystając z tej tabeli.
Ponieważ istnieje ogromna różnica między wartościami obserwowanymi a oczekiwanymi, rozkład wypadnie po prawej stronie.

Z powyższego rysunku możemy zrozumieć, że wartość Chi-Square waha się pomiędzy 0 a inf. Jednakże alfa leży w przeciwnym kierunku, w zakresie od 0 do 1. Jeśli wartość Chi-Square spadnie do obszaru błędu, należy odrzucić hipotezę zerową. Obszar błędu to alfa i mieści się on w przedziale od 0 do 0,05. Jednak w powyższym przykładzie wartość Chi-kwadrat jest niższa niż krytyczna wartość Chi-kwadrat, więc przyjmiemy hipotezę zerową.

Wnioski

Zrozumienie powyższego kontekstu testu Chi-kwadrat da Ci jasny obraz tej koncepcji. Pamiętaj, że test pomoże Ci zidentyfikować związek pomiędzy wartościami obserwowanymi i szacowanymi. Ponadto, wskazuje on, czy zmienne są zależne czy niezależne. Nie można jednak określić, dlaczego te zmienne są zależne i jaki jest między nimi związek.