Una matrice di confusione è una tabella che viene utilizzata per descrivere le prestazioni di un modello di classificazione su un insieme di dati di prova per i quali sono noti i valori reali. La matrice di confusione in sé è relativamente semplice da capire, ma la relativa terminologia può creare confusione.

Avevo bisogno di fare un “brisk reference manage” per la formulazione del quadro di riferimento delle perplessità, poiché non riuscivo a individuare un asset corrente che si adattasse alle mie necessità: minimizzato nell’introduzione, utilizzando i numeri piuttosto che fattori autoaffermativi, e chiarito sia per quanto riguarda le equazioni che le frasi.

Che ne dite di iniziare con un modello di reticolo di disordine per un classificatore parallelo (tuttavia può essere senza dubbio esteso all’istanza di classi multiple):

Cosa possiamo imparare da questa matrice?

Ci sono due possibili classi previste: “sì” e “no”. Nel caso in cui stessimo anticipando la vicinanza di un’infezione, per esempio, “sì” significherebbe che hanno la malattia, e “no” significherebbe che non hanno la malattia.

Il classificatore ha fatto una somma di 165 aspettative (ad esempio, 165 pazienti sono stati provati per la vicinanza di tale infezione).

Di questi 165 casi, il classificatore ha anticipato più volte “sì” e più volte “no”.

In realtà, 105 pazienti nell’esempio hanno l’infezione, e 60 pazienti non ce l’hanno.

Che ne dite se attualmente caratterizziamo i termini più fondamentali, che sono numeri interi (non tariffe):

veri positivi (TP): Questi sono casi in cui abbiamo previsto sì (hanno la malattia), e ce l’hanno.

i veri negativi (TN): Abbiamo previsto di no, e loro non hanno la malattia.

falsi positivi (FP): Abbiamo predetto di sì, ma in realtà non hanno la malattia. (Conosciuto anche come “errore di tipo I”)

falsi negativi (FN): Abbiamo previsto di no, ma in realtà hanno la malattia. (Conosciuto anche come “errore di tipo II”).

Ho aggiunto questi termini alla matrice di confusione, e ho aggiunto anche i totali di riga e colonna:

Ci sono due possibili classi previste: “sì” e “no”. Nel caso in cui stessimo anticipando la vicinanza di una malattia, per esempio, “sì” significherebbe che hanno l’infezione, e “no” significherebbe che non hanno la malattia.

Il classificatore ha fatto una somma di 165 aspettative (ad esempio, 165 pazienti sono stati processati per la vicinanza di quella malattia).

Di questi 165 casi, il classificatore ha anticipato più volte “sì” e più volte “no”.

Come regola generale, 105 pazienti nell’esempio hanno la malattia, e 60 pazienti non ce l’hanno.

Dovremmo ora caratterizzare i termini più essenziali, che sono numeri interi (non tariffe):

veri positivi (TP): Questi sono casi in cui abbiamo previsto sì (hanno la malattia), e ce l’hanno.

i veri negativi (TN): Abbiamo previsto di no, e loro non hanno la malattia.

falsi positivi (FP): Abbiamo predetto di sì, ma in realtà non hanno la malattia. (Conosciuto anche come “errore di tipo I”)

falsi negativi (FN): Abbiamo previsto di no, ma in realtà hanno la malattia. (Conosciuto anche come “errore di tipo II”).

Ho aggiunto questi termini al reticolo di disordine e ho incluso anche gli aggregati di linee e segmenti: possiamo imparare da questa matrice?

Si tratta di un’analisi delle tariffe che vengono regolarmente elaborate da una rete di perplessità per un doppio classificatore:

Precisione : In generale, con quale regolarità è corretto il classificatore?

(TP+TN)/tutti fuori = (100+50)/165 = 0,91

Tasso di classificazione errato: In generale, con quale frequenza è sbagliato?

(FP+FN)/tutti fuori = (10+5)/165 = 0,09

proporzionale a 1 breve Esattezza

altrimenti detto “tasso di errore”.

Vero tasso positivo: Quando è davvero così, con quale frequenza prevede il sì?

TP/reale sì = 100/105 = 0,95

altrimenti detto “Affidabilità” o “Recensione”.

Tasso di falsi positivi: Quando è tranquillo, con quale frequenza prevede il sì?

FP/reale no = 10/60 = 0,17

Vero tasso negativo: Quando è interamente, quanto regolarmente prevede di non esserlo?

TN/reale no = 50/60 = 0,83

pari a 1 breve Tasso falso positivo

altrimenti detto “Esplicità”.

precisione : Quando prevede veramente, con quale regolarità è giusto?

TP/anticipato sì = 100/110 = 0,91

Pervalenza: Con quale regolarità si verifica realmente la condizione del sì nel nostro esempio?

vero sì/tutti fuori = 105/165 = 0,64

Vale la pena di fare riferimento anche ad un paio di termini diversi:

Tasso di errore non valido: Questo è il mezzo con il quale regolarmente non si avrebbe ragione nella remota possibilità di anticipare la classe del leone. (Nel nostro modello, il tasso di errore non valido sarebbe di 60/165=0,36 in un caso in cui si è generalmente anticipato veramente, non sarebbe giusto per i 60 “no” casi). Questo può essere un utile modello metrico per pensare al vostro classificatore contro. In ogni caso, il miglior classificatore per una specifica applicazione avrà in alcuni casi un tasso di errore più elevato rispetto al tasso di errore non valido, come dimostra la Precision Catch 22.

Kappa di Cohen: Questa è fondamentalmente una proporzione di quanto bene il classificatore sia stato eseguito se confrontato con quanto bene sarebbe stato eseguito essenzialmente per una qualche coincidenza. In fin dei conti, un modello avrà un alto punteggio Kappa se c’è una grande distinzione tra la precisione e il tasso di errore non valido. (Ulteriori informazioni sul Kappa di Cohen).

F Punteggio: Si tratta di una norma ponderata del tasso realmente positivo (revisione) e dell’esattezza. (Ulteriori informazioni sul Punteggio F.)

ROC Bend: Si tratta di un grafico solitamente utilizzato che delinea la presentazione di un classificatore su ogni margine concepibile. Viene creato tracciando il tasso positivo genuino (y-pivot) contro il tasso positivo fasullo (x-hub) mentre si cambia il limite per relegare le percezioni ad una data classe. (Maggiori informazioni sulle curve ROC).

Infine, per chi proviene dall’universo delle intuizioni bayesiane, ecco una breve sinossi di questi termini di Applied Prescient Displaying:

In relazione alle misure bayesiane, l’affabilità e l’esplicitabilità sono le probabilità restrittive, la pervasività è la prima, e le qualità positive/negative previste sono le probabilità posteriori.