La medición del rendimiento es esencial para las actividades de aprendizaje de las máquinas. El ROC o Área Bajo Curva/AUC nos ayuda a abordar los problemas que enfrentamos durante la clasificación. Cuando comprobamos o visualizamos el rendimiento de las diferentes clasificaciones de un modelo, utilizamos estas métricas o curvas para evaluar el resultado. ROC es la abreviatura de Receiver Operating Characteristics, y AUC es el Area Under the Curve. También podemos escribir este término como AUROC o Área Bajo las Características Operativas del Receptor.

Área bajo la curva (AUC)

La AUC ayuda a comparar diferentes clasificadores. Se puede resumir cómo funciona cada clasificador en una sola medida. El enfoque básico para encontrar el AUC es calcular el AUROC. Es similar a la probabilidad de que la instancia negativa aleatoria sea menor que la instancia positiva. Si un clasificador tiene un AUC más bajo que otro clasificador, normalmente significa que la puntuación del AUC alto no es buena. Sin embargo, el AUC funciona bien bajo la medición general de la exactitud de la predicción.

Algunos términos importantes

La Matriz de la Confusión

Cuando las clases de salida son más de una, se puede usar la medición de la confusión para resolver los problemas de clasificación del aprendizaje de la máquina. La tabla de la matriz de confusión incluye cuatro combinaciones diferentes de valores reales y previstos. Puede usar esta técnica para medir la especificidad, la precisión, la memoria, la exactitud y el tema que discutimos hoy, la curva AUC y ROC. Entendamos los términos que contiene la matriz de confusión usando el ejemplo del embarazo:

Verdadero Positivo

La interpretación del verdadero positivo es que usted predice el positivo, y es una declaración verdadera. Por ejemplo, una mujer está embarazada, y tú predices lo mismo.

Negativo verdadero

La interpretación de la verdadera negativa es que usted predice la negativa, y es una declaración verdadera. Por ejemplo, un hombre no está embarazado, y tú predices lo mismo.

Falso positivo

La interpretación falso-positivo es que usted predice el positivo, y no es una declaración verdadera. Por ejemplo, un hombre no está embarazado, pero usted predice que lo está. Esta predicción es un error de tipo 1.

Falso Negativo

La verdadera interpretación negativa es que usted predice lo negativo, y no es una declaración verdadera. Por ejemplo, una mujer no está embarazada, pero usted predice que está embarazada. Esta predicción es un error de tipo 2.
Debes recordar que los valores reales son verdaderos y falsos, y los valores que predices son positivos y negativos.

Sensibilidad y especificidad

Varios dominios miden la sensibilidad y la especificidad colectivamente. Sin embargo, se trata de medidas separadas. Se puede usar la sensibilidad y la especificidad para predecir el rendimiento de la clasificación del modelo. Además, también puede utilizar estas medidas para realizar una prueba de diagnóstico.
Por ejemplo, si queremos medir la eficacia de una prueba de diagnóstico en una condición médica:

La sensibilidad medirá cuántas personas sufren la enfermedad o cuántas son positivas.

La especificidad medirá cuántas personas no sufren la enfermedad o cuántas son negativas.

Regresión logística

La regresión logística es un algoritmo que se puede utilizar en el aprendizaje de la máquina para los problemas de clasificación. Este algoritmo es el análisis predictivo, la probabilidad y su concepto. También puedes llamar a este algoritmo, modelo de regresión lineal. Sin embargo, la regresión lineal tiene una función de coste compleja en comparación con la regresión logística. Puede definir la función de coste de la regresión logística como la función sigmoide o la función logística.
La hipótesis de este algoritmo limitará la función de coste de cero a uno. Sin embargo, la función lineal representa que es mayor que uno o menor que cero. Esta condición es imposible contra la hipótesis de la regresión logística.

Comprensión del concepto

Creando una curva ROC

Puedes construir una curva ROC colocando la TPR o tasa positiva verdadera y la FPR o tasa positiva falsa una contra la otra. La tasa positiva verdadera es la observación que predice correctamente como positiva de todas las observaciones positivas. La representación matemática es:
TP/(TP + FN)
Del mismo modo, la tasa de falsos positivos son las observaciones que se predicen incorrectamente como positivas de todas las observaciones negativas. La representación matemática es:
FP/(TN + FP)
Por ejemplo, cuando se realiza una prueba médica para una enfermedad, la tasa a la que se identifica a las personas correctamente para los resultados positivos es la verdadera tasa positiva.
Sólo puedes obtener un único punto en el espacio ROC si el clasificador sólo devuelve tu clase de predicción. Sin embargo, cuando los clasificadores son problemáticos y tienen una puntuación o probabilidad que pertenece a una clase en lugar de otras, puede crear una curva con un umbral de puntuación variable. Puedes convertir varios clasificadores discretos en clasificadores de puntuación encontrando sus estadísticas. Por ejemplo, se puede encontrar la clase del nodo de una hoja a través de fracciones de los nodos.

Interpretar la curva ROC

La curva ROC significa el ajuste entre la FPR (especificidad) y la TRP (sensibilidad). El clasificador en la esquina superior izquierda especifica que el rendimiento es mejor. Como norma, recibirá puntos de un clasificador aleatorio entre la diagonal.
FPR=TRP
Se puede decir que la prueba es menos precisa si la curva está más cerca de los 45 grados del espacio ROC.
El ROC no depende de la distribución de clases. Por eso puedes evaluar los eventos raros con clasificadores predictivos como un desastre o una enfermedad. En comparación con eso, la precisión de la siguiente ecuación ayudará a los clasificadores que en su mayoría predicen resultados negativos para una condición o evento raro.
(TP +TN)/(TP + TN + FN + FP)

Conclusión

Puedes usar la curva ROC para el aprendizaje de la máquina y otros sectores e industrias para encontrar las raras condiciones que no tienen clasificadores adecuados. Necesitas predecir los clasificadores e identificar si la curva está a lo largo de los 45 grados del área ROC. Los sectores médicos han encontrado resultados efectivos y resultados de enfermedades raras.