El concepto de variable de confusión es un término estadístico que resulta un poco confuso para muchas personas debido al método que se utiliza. Para empezar, diferentes investigadores tienen diferentes explicaciones para las variables de confusión. Aunque la definición es la misma, el contexto de la investigación es medianamente específico del campo. Por lo tanto, los expertos de diferentes sectores aplican esta técnica para las soluciones de forma única. Por eso, antes de explicar su opinión sobre las variables de confusión, es importante entender la implicación que tiene la otra persona del término. Por ello, este artículo incluye información valiosa sobre las variables de confusión en el aprendizaje automático.

Variable de confusión

Una variable de confusión es una influencia externa en un experimento. En otras palabras, estas variables afectan al resultado del modelo al manipular las variables dependientes e independientes. Posteriormente, las variables de confusión actúan sobre las variables dependientes, lo que conduce a resultados inexactos.
En el curso de la investigación correlacional, estas variables afectan en gran medida a la relación superficial relativa a dos variables. Definen si las variables dependientes e independientes cambian a valor cero, negativo o positivo. También puede referirse a las variables de confusión como un factor que un investigador no puede eliminar o controlar, aunque cambie la validez del modelo.

La confusión en el aprendizaje automático

Anteriormente, las variables de confusión agitaban los resultados en la estadística aplicada. Desde el punto de vista de la estadística, la investigación depende de la relación de las variables independientes con las variables dependientes en los datos. Los investigadores resuelven las variables de confusión y mejoran las relaciones para el resultado mediante métodos estadísticos. Diseñan estas técnicas para invalidar o corromper los descubrimientos.
Los profesionales del aprendizaje automático se preocupan por mejorar las capacidades del modelo predictivo en lugar de la interpretabilidad y la corrección estadística. Sin embargo, las variables de confusión son el centro de atención mientras se seleccionan y preparan los datos. Pero al desarrollar los modelos estadísticos descriptivos, estas variables son menos importantes. Sin embargo, los expertos en aprendizaje automático aplicado consideran que la variable de confusión es esencial.
Los científicos de datos experimentan con variables dependientes e independientes para evaluar el modelo de aprendizaje automático. Principalmente, el objetivo de estos experimentos es minimizar la variable de confusión y su influencia en los resultados.

Impacto de la evaluación del modelo de aprendizaje automático

Si conoce el aprendizaje automático aplicado, puede sorprenderle que las prácticas estándar incluyan variables de confusión. Los experimentos de aprendizaje automático para las variables de confusión incluyen la elección e interpretación de técnicas para evaluar el modelo de aprendizaje automático. Es esencial considerar el impacto de las variables al evaluar el modelo e identificar las variables independientes. He aquí algunas elecciones que afectan a las variables dependientes a lo largo del experimento:
– Preparación de los esquemas de datos,
– Algoritmo de aprendizaje,
– Configuración del algoritmo de aprendizaje,
– Inicialización del algoritmo de aprendizaje,
– Un muestreo del conjunto de datos de entrenamiento
– Un muestreo del conjunto de datos de prueba.
Por lo tanto, puede elegir estas métricas al evaluar la capacidad del modelo para generar predicciones exactas. Teniendo en cuenta la evaluación del modelo de aprendizaje automático, será favorable diseñar y ejecutar los experimentos controlados. En un experimento controlado, el modelo aísla otras variables y se centra en un solo elemento. Los dos tipos de experimentos controlados más comunes son
– Evaluación del algoritmo de aprendizaje
– Evaluación de las configuraciones del algoritmo de aprendizaje

Aleatorización en el aprendizaje automático

Los experimentos controlados no pueden mantener constantes todas las variables de confusión. Por lo tanto, hay fuentes de aleatoriedad que indican que si el experimento mantiene constantes estas variables, la evaluación del modelo resultará inválida:
– Inicialización del modelo
– Muestra de datos
– Algoritmo de aprendizaje
Por ejemplo, una red neuronal incluye pesos que inicializan los valores aleatorios. A diferencia de las diferentes actualizaciones, el descenso de gradiente estocástico aleatorizará el orden de la muestra de los datos. Para seleccionar el posible límite en un bosque aleatorio, la selección de subconjuntos aleatorios será tranquilizadora. No es apropiado considerar la aleatorización como un error en un algoritmo de aprendizaje automático. Esta característica mejora el rendimiento del modelo a través de los métodos deterministas tradicionales.

Por qué es importante minimizar las variables de confusión?

La reducción de las variables de confusión es la esencia para asegurar la validez interna. La incapacidad de reducir las variables de confusión de su investigación o modelo no generará la relación real entre dos variables. En consecuencia, encontrará resultados inconsistentes. Comparativamente, el resultado que descubra incluirá una relación de causa y efecto, que no es el caso en la realidad. Debido a que la variable independiente no produce el efecto, usted termina midiendo la variable de confusión.

Disminuir los efectos del valor de confusión

Una vez completada la investigación, utilice métodos estadísticos para reducir los efectos de confusión en el modelo. El método de estratificación aumentará la eficacia de los resultados, siempre que los posibles factores de confusión sean pequeños en número. Este método para reducir las variables de confusión consiste en dividir el resultado en grupos más pequeños. Por lo tanto, separa la variable de confusión en grupos. A continuación, observa la relación entre ambas variables, independiente y dependiente, en cada grupo.
Supongamos que tu investigación consiste en identificar a los fumadores y a los no fumadores para que la tasa de mortalidad incluya también a las personas con adicción al alcohol. Esto afectará al resultado, ya que el consumo de alcohol también afecta a la moral. Utilizando la técnica de estratificación, cree diferentes grupos pequeños de fumadores y no fumadores. En consecuencia, observe la relación entre el consumo de alcohol y la mortalidad en cada grupo.
El análisis multivariante reducirá la influencia de los valores de confusión en un modelo con un gran número de posibles factores de confusión. Esta técnica de análisis incluye la regresión lineal o logística.

Conclusión

Se generarán resultados distorsionados cuando no se modifique la tercera variable que afecta a una relación entre dos variables. La determinación de la variable de confusión es la esencia para la evaluación del modelo de aprendizaje automático. El modelo puede incluir muchos factores de confusión desconocidos, que cambian el resultado. Su planificación, diseño y ejecución del modelo de predicción no servirán de nada, ya que manipularán las variables independientes. Por lo tanto, es necesario reducir los efectos del algoritmo para obtener resultados específicos y sin errores.