Una matriz de confusión es una tabla que se utiliza para describir el rendimiento de un modelo de clasificación en un conjunto de datos de prueba para los que se conocen los valores reales. La matriz de confusión en sí misma es relativamente sencilla de entender, pero la terminología relacionada puede ser confusa.

Necesitaba hacer una “gestión de referencia rápida” para la redacción del marco de perplejidad, ya que no podía localizar un activo actual que se ajustara a mis necesidades: minimizado en la introducción, utilizando números en lugar de factores de autoafirmación, y aclarado tanto en lo que respecta a las ecuaciones como a las frases.

¿Qué tal si empezamos con un modelo de red de desorden para un clasificador paralelo (sin embargo, sin duda puede extenderse a la instancia de múltiples clases):

¿Qué podemos aprender de esta matriz?

Hay dos clases de anticipación concebibles: “sí” y “no”. En el caso de que estuviéramos anticipando la proximidad de una infección, por ejemplo, “sí” significaría que tienen la enfermedad, y “no” significaría que no tienen la enfermedad.

El clasificador hizo una suma de 165 expectativas (por ejemplo, se estaba probando a 165 pacientes por la cercanía de esa infección).

De esos 165 casos, el clasificador anticipó varias veces “sí” y varias veces “no”.

En realidad, 105 pacientes en el ejemplo tienen la infección, y 60 pacientes no.

¿Qué tal si actualmente caracterizamos los términos más fundamentales, que son números enteros (no tasas):

verdaderos positivos (TP): Estos son casos en los que predijimos que sí (tienen la enfermedad), y sí tienen la enfermedad.

verdaderos negativos (TN): Predijimos que no, y no tienen la enfermedad.

falsos positivos (FP): Predijimos que sí, pero en realidad no tienen la enfermedad. (También conocido como “Error de tipo I”.)

falsos negativos (FN): Predijimos que no, pero en realidad tienen la enfermedad. (También conocido como un “error de tipo II”.)

He añadido estos términos a la matriz de confusión, y también he añadido los totales de filas y columnas:

Hay dos clases de anticipación concebibles: “sí” y “no”. En el caso de que estuviéramos anticipando la proximidad de una enfermedad, por ejemplo, un “sí” significaría que tienen la infección, y un “no” significaría que no tienen la enfermedad.

El clasificador hizo una suma de 165 expectativas (por ejemplo, 165 pacientes estaban siendo juzgados por la cercanía de esa enfermedad).

De esos 165 casos, el clasificador anticipó varias veces “sí” y varias veces “no”.

Por regla general, 105 pacientes del ejemplo tienen la enfermedad, y 60 pacientes no.

Ahora debemos caracterizar los términos más esenciales, que son los números enteros (no las tasas):

verdaderos positivos (TP): Estos son casos en los que predijimos que sí (tienen la enfermedad), y sí tienen la enfermedad.

verdaderos negativos (TN): Predijimos que no, y no tienen la enfermedad.

falsos positivos (FP): Predijimos que sí, pero en realidad no tienen la enfermedad. (También conocido como “Error de tipo I”.)

falsos negativos (FN): Predijimos que no, pero en realidad tienen la enfermedad. (También conocido como un “error de tipo II”.)

He añadido estos términos a la red de desorden, y además he incluido los agregados de líneas y segmentos: ¿podemos aprender de esta matriz?

Se trata de un resumen de las tasas que se procesan regularmente desde una red de perplejidad para un doble clasificador:

Exactitud : En general, ¿con qué regularidad es correcto el clasificador?

(TP+TN)/todos fuera = (100+50)/165 = 0.91

Tasa de clasificación errónea: En general, ¿con qué frecuencia se equivoca?

(FP+FN)/todos fuera = (10+5)/165 = 0.09

proporcional a 1 corto Exactitud

también llamado “Tasa de errores”

Tasa positiva real: Cuando realmente es así, ¿con qué frecuencia prevé que sí?

TP/real sí = 100/105 = 0,95

también llamado “Afectabilidad” o “Revisión”.

Tasa de falsos positivos: Cuando está tranquilo, ¿con qué frecuencia prevé que sí?

FP/real no = 10/60 = 0.17

Tasa negativa real: Cuando está completamente, ¿con qué regularidad prevé que no?

TN/real no = 50/60 = 0.83

igual a 1 tasa de falsos positivos cortos

también llamado “Explicitación”

Precisión: Cuando predice verdaderamente, ¿con qué regularidad es correcto?

TP/anticipado sí = 100/110 = 0,91

Pervalencia: ¿Con qué regularidad ocurre realmente la condición de “sí” en nuestro ejemplo?

genuino si/todo fuera = 105/165 = 0.64

También vale la pena referirse a un par de términos diferentes:

Tasa de errores inválidos: Este es el medio por el cual regularmente no estarías en el camino correcto en el caso de que generalmente anticiparas la clase de la acción del león. (En nuestro modelo, la tasa de error inválido sería de 60/165=0,36 en tal caso que generalmente se anticipó verdaderamente, no sería correcto para los 60 casos de “no”). Esta puede ser una métrica de patrón útil para pensar en su clasificador contra. En cualquier caso, el mejor clasificador para una aplicación específica tendrá en algunos casos una tasa de errores más alta que la tasa de errores no válidos, como se muestra en el Precision Catch 22.

Kappa de Cohen: Esto es básicamente una proporción de lo bien que se ejecutó el clasificador cuando se contrasta con lo bien que se habría ejecutado esencialmente por alguna coincidencia. Al final del día, un modelo tendrá un alto puntaje Kappa si hay una gran distinción entre la precisión y la tasa de errores garrafales inválidos. (Más información sobre el Kappa de Cohen.)

F Score: Esta es una norma ponderada de la tasa positiva genuina (revisión) y exactitud. (Más información sobre la puntuación F.)

ROC Bend: Este es un gráfico normalmente utilizado que describe la presentación de un clasificador sobre cada borde concebible. Se crea trazando la Tasa Positiva Genuina (pivote y) contra la Tasa Positiva Falsa (x-hub) al cambiar el límite para relegar las percepciones a una clase determinada. (Más información acerca de ROC Bends.)

Por último, para aquellos de ustedes que pertenecen al universo de las ideas bayesianas, aquí hay una sinopsis de estos términos de la Visualización Presciente Aplicada:

En relación con las mediciones bayesianas, la afectabilidad y la explicitación son las probabilidades restrictivas, la omnipresencia es la más temprana, y las cualidades anticipadas positivas/negativas son las probabilidades de retroceso.