Quando si sviluppa un modello di apprendimento automatico, si possono incontrare numerosi problemi. Un problema comune relativo alla selezione delle caratteristiche determina quanto siano rilevanti le caratteristiche di input per l’output predittivo. È possibile utilizzare test statistici per capire come la variabile di output dipende dalla variabile di input. Questi test sono utili quando le variabili di input sono definite. Se il risultato indica che l’output è indipendente, si dovrebbe rimuovere la variabile di input perché è irrilevante per il problema. Il test del chi-quadrato di Pearson identificherà se le variabili categoriche sono indipendenti o no.

Cos’è un test del chi-quadrato?

Un test Chi-quadrato è una tecnica statistica per determinare la relazione tra due variabili in un insieme di dati simili. Possiamo capire il concetto dal seguente esempio:
Supponiamo che un ricercatore voglia capire una relazione per collocare gli studenti in un dipartimento in base ai loro CGPA. Estrarrà record casuali del dipartimento per gli ultimi cinque anni. Registrerà il numero di studenti e il loro CGPA, che erano disponibili per questa categoria, cioè, sotto 6, 6-7, 7-8, 8-9, 9-10.
Se non riuscisse a trovare alcuna relazione tra il posizionamento degli studenti e il loro CGPA, dovrebbe dividere equamente gli studenti in diverse categorie. Tuttavia, se tutti gli studenti della categoria hanno un CGPA superiore a 8, allora gli studenti al di sotto di questo punteggio non rientreranno in nessuna categoria.

Presupposti del test

Poiché il test Chi è un test statistico, include alcuni presupposti:
– Si otterranno i dati usando una selezione casuale dall’insieme dei dati.
– Ogni soggetto rientrerà in una sola categoria. Per esempio, se considerate il numero di impiegati che non erano disponibili solo il lunedì, non potete includerli nel martedì.
– Dovete raccogliere i dati in conteggi o frequenze. Non considerare i dati in percentuale.
– I dati non dovrebbero contenere gruppi, poiché ciò influenzerebbe le osservazioni.
– Non potete usare il Chi-quadrato se il valore del 20% di frequenze attese è inferiore a 5.

Come eseguire il test del Chi-quadrato?

Seguite questi passi per eseguire il test e trovare le variabili affidabili:
1. Identificare l’ipotesi
2. Creare una tabella di contingenza
3. Determinazione dei valori attesi
4. Calcolo della statistica Chi-quadro
5. Accettare e rifiutare l’ipotesi nulla

1. Identificare l’ipotesi

L’ipotesi nulla o H1 indicherebbe che entrambe le variabili sono indipendenti. Tuttavia, includerete anche un’ipotesi alternativa o H1. Questa indica che entrambe le variabili non sono indipendenti.

2. Creazione di una tabella di contingenza

In questo passo, creerete una tabella di contingenza che indica la distribuzione di entrambe le variabili. Mettete la prima variabile in una riga e le altre variabili in una colonna. Questa tabella vi aiuterà a capire la relazione tra le due variabili.

La tabella di contingenza includerà anche i gradi di libertà. Indicherete i gradi di libertà come (r-1)x(c-1). In questa equazione, r sarà la riga e c sarà la colonna. Qui:
Df = (2-1) x (2-1) = 1
Dalla tabella qui sopra, abbiamo capito tutti i valori osservati. Successivamente, troveremo i valori attesi. Per questo, dobbiamo trovare il valore del Chi-quadro e identificare la relazione.

3. Determinazione dei valori attesi

Secondo l’ipotesi nulla, le due variabili non sono dipendenti. Pertanto, possiamo considerare la seguente equazione assumendo che A e B siano due eventi diversi e indipendenti:

Ora possiamo calcolare il valore atteso dalla prima cella. La prima cella include i maschi che sono usciti dalla banca.

Allo stesso modo, usando la stessa equazione, possiamo determinare i risultati anche per le altre celle. Ecco il risultato:

4. Calcolo della statistica Chi-Suqare

Possiamo ora determinare il valore del Chi-quadro mettendo i valori attesi calcolati e i valori osservati nella tabella sottostante:

La tabella precedente indica O come i valori osservati ed E come i valori attesi. Considerando la formula statistica del Chi-quadro per il valore di cui sopra, abbiamo trovato il Chi-quadro come 2,22.

5. Accettare e rifiutare l’ipotesi nulla

Ora, possiamo controllare se si deve accettare o rifiutare il Chi-quadro calcolato con il 95% di confidenza. La confidenza è alfa, che è uguale a 0,05. Mettendo i valori che abbiamo capito dalle formule precedenti, possiamo trovare se il Chi-quadro deve essere accettato o rifiutato.
– Grado di libertà = 1 (secondo la tabella di contingenza)
– Alfa = 0,05
– Valore del Chi-quadro = 3,84
Puoi trovare il valore del Chi-quadro usando questa tabella.
Poiché c’è un’enorme differenza tra i valori osservati e quelli attesi, la distribuzione cadrà sul lato destro.

Dalla figura precedente, possiamo capire che il valore del Chi-quadro varia tra 0 e inf. Tuttavia, l’alfa si trova nella direzione opposta che va da 0 a 1. Se il valore del Chi-quadro scende nella regione di errore, bisogna rifiutare l’ipotesi nulla. La regione di errore sarà l’alfa e andrà da 0 a 0,05. Tuttavia, nell’esempio precedente, il valore del Chi-quadro è inferiore al valore critico del Chi-quadro, quindi si accetta l’ipotesi nulla.

Conclusione

Comprendere il contesto di cui sopra sul test del Chi-quadrato vi darà un quadro chiaro del concetto. Tenete a mente che il test vi aiuterà a identificare la relazione tra i valori osservati e quelli stimati. Inoltre, indica se le variabili sono dipendenti o indipendenti. Tuttavia, non potete determinare perché queste variabili sono dipendenti e la relazione tra loro.