Con los algoritmos de aprendizaje automático y aprendizaje profundo cada vez más avanzados, se puede resolver casi cualquier problema con conjuntos de datos adecuados. Sin embargo, a medida que aumenta la complejidad del modelo, se vuelven difíciles de interpretar. Cuando se habla de la interpretabilidad de los modelos de machine learning, lo primero que viene a la mente es la Regresión Lineal. La regresión lineal es un modelo bastante sencillo y fácil de interpretar. Además de ser sencillo, incluye varios problemas de interpretabilidad, especialmente en cuanto a las violaciones de los supuestos de regresión lineal. También puede referirse a los supuestos de Regresión Lineal como Multicolinealidad.

Qué es la Multicolinealidad?

En un modelo de regresión, cuando dos o más variables independientes se correlacionan entre sí, puede referirse al modelo como multicolinealidad. Indica que se puede predecir una variable independiente con otra variable independiente en este tipo de modelo. Las variables pueden ser el peso y la altura, el consumo de agua y los ingresos del hogar, el precio del coche y el kilometraje, el tiempo de ocio y el tiempo de estudio, y otras.

Puede tomar cualquier variable de su vida cotidiana. Por ejemplo, si te gusta comer patatas fritas mientras ves la televisión, el índice de satisfacción aumenta cuando ves más televisión y comes más patatas fritas. Ahora, cuando consideres las cosas que te mantendrán ocupado y te harán feliz, ¿qué actividad te parecerá interesante y tendrá un mayor impacto en tu nivel de felicidad? ¿Te sentirás más feliz cuando comas patatas fritas o cuando veas la televisión?

Esto sería difícil de medir porque cuando veas más televisión, comerás más patatas fritas, y cuando comas más patatas fritas, tendrás que ver más televisión. Ambas actividades están relacionadas entre sí. Será difícil determinar el impacto de una actividad sobre otra para la felicidad. Esto es lo que realmente es el problema de la multicolinealidad. Ahora vamos a ver cómo se mide la multicolinealidad en relación con el aprendizaje automático.

Tipos de multicolinealidad

La multicolinealidad consta de dos tipos diferentes. El primer tipo de multicolinealidad es estructural. Es un subproducto. Como se crea con la ayuda de la variable independiente existente, se puede rastrear fácilmente. La variable independiente x del primer tipo se eleva al cuadrado. Por ejemplo, si la multicolinealidad estructural considera que usted tiene un conjunto de datos y utiliza un logaritmo para normalizar o escalar las características. El segundo tipo es la multicolinealidad de datos, que es más peligrosa que la estructural. Esta multicolinealidad le resultará más difícil de identificar e interpretar. Si usted está usando el marco de datos de pandas, éste ya incorporará este tipo de multicolinealidad.

Detección y eliminación de la multicolinealidad

La solución óptima para categorizar la multicolinealidad es calcular el Factor de Inflación de la Varianza equivalente a cada variable individual en los datos. Conociendo el Factor de Inflación de la Varianza, podrá determinar si la variable es predecible o no. Para ello, utilizará otras variables independientes. Podemos entender el concepto con el siguiente ejemplo:

Suponiendo estas nueve variables diferentes, puede calcular el Factor de Inflación de la Varianza para la primera variable, es decir, V1. Para calcular la variable V1, debe considerarla como una variable objetivo y aislarla de todas las demás variables. Trate todas las demás variables como variables predictoras.

Utilizando otras variables, podemos encontrar el valor correspondiente de R2. Para encontrar el valor, entrene su modelo de regresión utilizando las variables predictoras. Puede calcular el valor VIF con la ayuda del valor R2. El resultado será:

De la fórmula anterior, podemos ver claramente que tanto el valor R2 como el Factor de Inflación de la Varianza aumentarán simultáneamente. Cuando el valor R2 es más alto, indica que las otras variables independientes están explicando adecuadamente la variable objetivo-independiente. Ahora, para decidir si mantener o eliminar la variable, consideraremos el valor del umbral del Factor de Inflación de la Varianza.

El valor del Factor de Inflación de la Varianza debe ser deseablemente pequeño. Sin embargo, este valor puede eliminar las variables independientes del conjunto de datos. Por lo tanto, los expertos suelen tomar un umbral del Factor de Inflación de la Varianza igual a cinco. Esto indica que si el valor de cualquier variable independiente es superior a cinco, se eliminará. Sin embargo, el valor ideal del umbral dependerá del problema encontrado.

Conclusión

La influencia de la Regresión Lineal depende de la simplicidad de la interpretación del modelo. No podrá encontrar el propósito del modelo si no tiene en cuenta la multicolinealidad. A partir del contexto anterior, entenderá el significado de la multicolinealidad y cómo afecta a la Regresión Lineal. Además, ahora puede detectar y eliminar la multicolinealidad para cualquier problema que encuentre en el futuro.