Bij de ontwikkeling van een model voor machinaal leren kunt u op tal van problemen stuiten. Een veel voorkomend probleem met betrekking tot feature selectie bepaalt hoe relevant de input features zijn voor de voorspellende output. U kunt statistische tests gebruiken om te begrijpen hoe de outputvariabele afhangt van de inputvariabele. Deze tests zijn nuttig wanneer de inputvariabelen definitief zijn. Als het resultaat aangeeft dat de output onafhankelijk is, moet u de inputvariabele verwijderen omdat deze irrelevant is voor het probleem. De Pearson’s chi-kwadraattest geeft aan of de categorische variabelen onafhankelijk zijn of niet.

Wat is een Chi-kwadraattoets?

Een Chi-kwadraat toets is een statistische techniek om de relatie tussen twee variabelen in een vergelijkbare dataset te bepalen. We kunnen het concept begrijpen aan de hand van het volgende voorbeeld:
Laten we aannemen dat een onderzoeker een relatie wil achterhalen om studenten in een afdeling te plaatsen op basis van hun CGPA’s. Hij zal willekeurige records van de afdeling van de laatste vijf jaar extraheren. Hij zal het aantal studenten en hun CGPA noteren, die beschikbaar waren voor deze categorie, d.w.z. lager dan 6, 6-7, 7-8, 8-9, 9-10.
Als hij geen verband kon vinden tussen de plaatsing van de studenten en hun CGPA, moet hij de studenten gelijkelijk in verschillende categorieën verdelen. Als echter alle studenten in de categorie een CGPA van meer dan 8 hebben, dan zullen de studenten onder deze score in geen enkele categorie vallen.

Veronderstellingen van de test

Aangezien de chi-test een statistische test is, bevat hij een aantal veronderstellingen:
– Je verkrijgt de gegevens door een willekeurige selectie uit de dataset.
– Elk onderwerp zal slechts in één enkele categorie passen. Als u bijvoorbeeld alleen het aantal werknemers beschouwt dat op maandag niet beschikbaar was, kunt u hen niet op dinsdag meetellen.
– U moet de gegevens in tellingen of frequenties verzamelen. Beschouw de gegevens niet in percentages.
– De gegevens mogen geen groepen bevatten, omdat dit de waarnemingen zal beïnvloeden.
– U kunt Chi-Square niet gebruiken als de waarde van 20% verwachte frequenties lager is dan 5.

Hoe de Chi-kwadraattoets uitvoeren?

Volg deze stappen om de test uit te voeren en de afhankelijke variabelen te vinden:
1. Identificeer de hypothese
2. Het creëren van een contingentietabel
3. Bepalen van de verwachte waarden
4. De Chi-Square statistiek berekenen
5. Accepteren en verwerpen van de nulhypothese

1. Identificatie van de hypothese

De Nulhypothese of H1 zou erop wijzen dat beide variabelen onafhankelijk zijn. U zult echter ook een alternatieve hypothese of H1 opnemen. Deze geeft aan dat beide variabelen niet onafhankelijk zijn.

2. Het creëren van een Contingentietabel

In deze stap maakt u een contingentietabel die de verdeling van beide variabelen aangeeft. Plaats de eerste variabele in een rij en de andere variabelen in een kolom. Deze tabel zal u helpen de relatie tussen beide variabelen te begrijpen.


De contingentietabel zal ook de vrijheidsgraden bevatten. Je geeft de vrijheidsgraden aan als (r-1)x(c-1). In deze vergelijking zijn r de rijen en c de kolommen. Hier:
Df = (2-1) x (2-1) = 1
Uit de tabel hierboven hebben we alle waargenomen waarden gehaald. Nu zullen we de verwachte waarden vinden. Daarvoor moeten we de Chi-Square waarde vinden en het verband vaststellen.

3. Bepaling van de verwachte waarden

Volgens de nulhypothese zijn de twee variabelen niet afhankelijk. Daarom kunnen wij de volgende vergelijking beschouwen door aan te nemen dat A en B twee verschillende, onafhankelijke gebeurtenissen zijn:

Nu kunnen we de verwachte waarde berekenen van de eerste cel. De eerste cel omvat de mannen die de bank hebben verlaten.

Op dezelfde manier kunnen we met dezelfde vergelijking ook de resultaten voor andere cellen bepalen. Hier is het resultaat:

4. Berekening van de Chi-Suqare Statistiek

We kunnen nu de Chi-Square waarde bepalen door de berekende verwachte waarden en de waargenomen waarden in de tabel hieronder te zetten:

In bovenstaande tabel staat O als de waargenomen waarden en E als de verwachte waarden. Gezien de Chi-Square statistiekformule voor de bovenstaande waarde, vinden we de Chi-Square als 2,22.

5. Accepteren en verwerpen van de nulhypothese

Nu kunnen we nagaan of we de berekende Chi-Square moeten aanvaarden of verwerpen met 95% betrouwbaarheid. De betrouwbaarheid is alpha, die gelijk is aan 0,05. Door de waarden die we uit de bovenstaande formules hebben afgeleid, te vermenigvuldigen, kunnen we nagaan of de Chi-Square moet worden aanvaard of verworpen.
– Vrijheidsgraad = 1 (volgens de contingentietabel)
– Alfa = 0.05
– Chi-kwadraat waarde = 3.84
Je kunt de waarde van Chi-Square vinden met behulp van deze tabel.
Omdat er een groot verschil is tussen de Waargenomen waarden en de Verwachte waarden, zal de verdeling naar de rechterkant vallen.

Uit de bovenstaande figuur kunnen we opmaken dat de waarde van Chi-Square tussen 0 en inf ligt. De alpha ligt echter in de tegenovergestelde richting, tussen 0 en 1. Als de Chi-Square-waarde in het foutengebied valt, moet u de nulhypothese verwerpen. Het foutengebied zal de alfa zijn en tussen 0 en 0,05 liggen. In het bovenstaande voorbeeld is de Chi-Square waarde echter lager dan de kritieke Chi-Square waarde, zodat u de nulhypothese aanvaardt.

Conclusie

Het begrijpen van de bovenstaande context over de Chi-Square test zal u een duidelijk beeld geven van het concept. Houd in gedachten dat de test u zal helpen het verband tussen de waargenomen en de geschatte waarden vast te stellen. Ook geeft hij aan of de variabelen afhankelijk of onafhankelijk zijn. U kunt echter niet bepalen waarom deze variabelen afhankelijk zijn en wat het verband ertussen is.