Cuando se desarrolla un modelo de aprendizaje automático, pueden surgir numerosos problemas. Un problema común relacionado con la selección de características determina la relevancia de las características de entrada para la salida predictiva. Puede utilizar pruebas estadísticas para entender cómo la variable de salida depende de la variable de entrada. Estas pruebas son útiles cuando las variables de entrada son definidas. Si el resultado indica que la salida es independiente, debe eliminar la variable de entrada, ya que es irrelevante para el problema. La prueba chi-cuadrado de Pearson identificará si las variables categóricas son independientes o no.

Qué es una prueba chi-cuadrado?

Una prueba de Chi-cuadrado es una técnica estadística para determinar la relación entre dos variables en un conjunto de datos similar. Podemos entender el concepto a partir del siguiente ejemplo:
Supongamos que un investigador quiere averiguar una relación para colocar a los estudiantes en un departamento en función de su CGPA. Extraerá registros aleatorios del departamento de los últimos cinco años. Registrará el número de estudiantes y su CGPA, que estaban disponibles para esta categoría, es decir, por debajo de 6, 6-7, 7-8, 8-9, 9-10.
Si no encuentra ninguna relación entre la colocación de los estudiantes y su CGPA, deberá dividir igualmente a los estudiantes en diferentes categorías. Sin embargo, si todos los estudiantes de la categoría tienen una CGPA superior a 8, los estudiantes que estén por debajo de esta puntuación no entrarán en ninguna categoría.

Supuestos de la prueba

Como la prueba Chi es una prueba estadística, incluye algunos supuestos:
– Obtendrá los datos mediante una selección aleatoria del conjunto de datos.
– Cada sujeto sólo encajará en una única categoría. Por ejemplo, si considera el número de empleados que no estaban disponibles el lunes solamente, no puede incluirlos el martes.
– Tiene que recoger los datos en recuentos o en frecuencia. No considere los datos en porcentaje.
– Los datos no deben contener grupos, ya que afectarán a las observaciones.
– No se puede utilizar Chi-Cuadrado si el valor del 20% de las frecuencias esperadas es inferior a 5.

Cómo realizar la prueba de Chi-Cuadrado?

Siga estos pasos para realizar la prueba y encontrar las variables dependientes:
1. Identificar la hipótesis
2. Crear una tabla de contingencia
3. Determinación de los valores esperados
4. Cálculo del estadístico Chi-cuadrado
5. Aceptar y rechazar la hipótesis nula

1. Identificación de la hipótesis

La hipótesis nula o H1 indicaría que las dos variables son independientes. Sin embargo, también se incluirá una hipótesis alternativa o H1. Ésta indica que ambas variables no son independientes.

2. Creación de una tabla de contingencia

En este paso, creará una tabla de contingencia que indique la distribución de ambas variables. Coloque la primera variable en una fila y las otras variables en la columna. Esta tabla te ayudará a entender la relación entre ambas variables.

La tabla de contingencia también incluirá los grados de libertad. Indicará los grados de libertad como (r-1)x(c-1). En esta ecuación, r serán las filas y c será la columna. Aquí:
Df = (2-1) x (2-1) = 1
A partir de la tabla anterior, hemos calculado todos los valores observados. A continuación, encontraremos los valores esperados. Para ello, tenemos que encontrar el valor de Chi-Cuadrado e identificar la relación.

3. Determinación de los valores esperados

Según la hipótesis nula, las dos variables no son dependientes. Por lo tanto, podemos considerar la siguiente ecuación suponiendo que A y B son dos eventos diferentes e independientes:

Ahora podemos calcular el valor esperado de la primera celda. La primera celda incluye a los hombres que salieron del banco.

Del mismo modo, utilizando la misma ecuación, podemos determinar los resultados de otras celdas también. Este es el resultado:

4. Cálculo de la estadística Chi-cuadrado

Ahora podemos determinar el valor de Chi-Cuadrado poniendo los valores esperados calculados y los valores observados en la tabla siguiente:

La tabla anterior indica O como los valores observados y E como los valores esperados. Considerando la fórmula del estadístico Chi-cuadrado para el valor anterior, encontramos el Chi-cuadrado como 2,22.

5. Aceptar y rechazar la hipótesis nula

Ahora podemos comprobar si se debe aceptar o rechazar el Chi-Cuadrado calculado con un 95% de confianza. La confianza es alfa, que es igual a 0,05. Poniendo los valores que hemos calculado a partir de las fórmulas anteriores, podemos encontrar si la Chi-Cuadrado debe ser aceptada o rechazada.
– Grado de libertad = 1 (según la tabla de contingencia)
– Alfa = 0,05
– Valor de Chi-Cuadrado = 3,84
Puede encontrar el valor de Chi-Cuadrado utilizando esta tabla.
Como hay una gran diferencia entre los valores observados y los valores esperados, la distribución caerá hacia el lado derecho.

A partir de la figura anterior, podemos entender que el valor de Chi-Cuadrado oscila entre 0 e inf. Sin embargo, el alfa se encuentra en la dirección opuesta y oscila entre 0 y 1. Si el valor de Chi-Cuadrado cae en la región de error, hay que rechazar la hipótesis nula. La región de error será el alfa y oscilará entre 0 y 0,05. Sin embargo, en el ejemplo anterior, el valor de Chi-Cuadrado es inferior al valor crítico de Chi-Cuadrado, por lo que se aceptará la hipótesis nula.

Conclusión

Entender el contexto anterior sobre la prueba de Chi-Cuadrado le dará una idea clara del concepto. Tenga en cuenta que la prueba le ayudará a identificar la relación entre los valores observados y los estimados. Además, indica si las variables son dependientes o independientes. Sin embargo, no puede determinar por qué estas variables son dependientes ni la relación entre ellas.