La misurazione delle prestazioni è essenziale per le attività di machine learning. ROC o Area Under Curve/AUC ci aiuta ad affrontare i problemi che dobbiamo affrontare durante la classificazione. Quando controlliamo o visualizziamo le diverse classificazioni di un modello, utilizziamo queste metriche o curve per valutare il risultato. ROC è l’abbreviazione di Receiver Operating Characteristics, e AUC è l’Area Sotto la Curva. Possiamo anche scrivere questo termine come AUROC o Area Sotto le Caratteristiche Operative del Ricevitore.

Area Sotto la Curva (AUC)

AUC aiuta a confrontare i diversi classificatori. È possibile riassumere le prestazioni di ogni classificatore in una singola misura. L’approccio di base per trovare l’AUC è quello di calcolare l’AUROC. È simile alla probabilità che l’istanza casuale negativa sia inferiore all’istanza positiva. Se un classificatore ha un AUC inferiore a quello di un altro classificatore, significa normalmente che il punteggio dell’AUC alto non è buono. Tuttavia, l’AUC funziona bene sotto la misura generale della precisione predittiva.

Alcuni termini importanti

La matrice di confusione

Quando le classi di uscita sono più di una, si può usare la misurazione della confusione per risolvere i problemi di classificazione dell’apprendimento macchina. La tabella della matrice di confusione comprende quattro diverse combinazioni di valori reali e previsti. Si può usare questa tecnica per misurare la specificità, la precisione, il richiamo, l’accuratezza e l’argomento che discutiamo oggi, la curva AUC e la curva ROC. Comprendiamo i termini che la matrice di confusione contiene utilizzando l’esempio della gravidanza:

Vero Positivo

L’interpretazione del vero positivo è che si prevede il positivo, ed è un’affermazione vera. Per esempio, una donna è incinta, e si prevede lo stesso.

Vero negativo

L’interpretazione del vero negativo è che si prevede il negativo, ed è un’affermazione vera. Per esempio, un uomo non è incinto, e si prevede lo stesso.

Falso positivo

L’interpretazione falso-positivo è che si prevede il positivo, e non è un’affermazione vera. Per esempio, un uomo non è incinto, ma si prevede che sia incinto. Questa previsione è un errore di tipo 1.

Falso negativo

La vera interpretazione negativa è che si prevede il negativo, e non è una vera affermazione. Per esempio, una donna non è incinta, ma si prevede che sia incinta. Questa previsione è un errore di tipo 2.
Dovete ricordare che i valori reali sono veri e falsi, e che i valori che prevedete sono positivi e negativi.

Sensibilità e specificità

Diversi settori misurano collettivamente la sensibilità e la specificità. Tuttavia, si tratta di misure separate. È possibile utilizzare sensibilità e specificità per prevedere le prestazioni della classificazione del modello. Inoltre, è possibile utilizzare queste misure anche per eseguire un test diagnostico.
Ad esempio, se vogliamo misurare l’efficacia di un test diagnostico in una condizione medica:

La sensibilità misurerà quante persone sono affette dalla malattia o quante sono positive.

La specificità misurerà quante persone non sono affette dalla malattia o quante sono negative.

Regressione logistica

La regressione logistica è un algoritmo che si può utilizzare nell’apprendimento automatico per problemi di classificazione. Questo algoritmo è analisi predittiva, probabilità e il suo concetto. Si può anche chiamare questo algoritmo, modello di regressione lineare. Tuttavia, la regressione lineare ha una funzione di costo complessa rispetto alla regressione logistica. Si può definire la funzione di costo della regressione logistica come funzione sigmoide o funzione logistica.
L’ipotesi di questo algoritmo limiterà la funzione di costo da zero a uno. Tuttavia, la funzione lineare rappresenta che sia maggiore di uno o minore di zero. Questa condizione è impossibile contro l’ipotesi della regressione logistica.

Comprendere il concetto

Creazione di una curva ROC

È possibile costruire una curva ROC mettendo la TPR o la vera percentuale positiva e la FPR o la falsa percentuale positiva l’una contro l’altra. La true positive rate è l’osservazione che si prevede correttamente come positiva da tutte le osservazioni positive. La rappresentazione matematica è:
TP/(TP + FN)
Allo stesso modo, la percentuale di falsi positivi è costituita dalle osservazioni che si prevede erroneamente come positive da tutte le osservazioni negative. La rappresentazione matematica è:
FP/(TN + FP)
Ad esempio, durante l’esecuzione di un test medico per una malattia, il tasso a cui si identificano correttamente le persone per i risultati positivi è il vero tasso positivo.
Si può ottenere un solo punto nello spazio ROC solo se il classificatore restituisce solo la classe di previsione. Tuttavia, quando i classificatori sono problematici e hanno un punteggio o una probabilità che appartiene a una classe invece che ad altre, è possibile creare una curva con una soglia di punteggio variabile. È possibile convertire vari classificatori discreti in classificatori di punteggio trovando le loro statistiche. Ad esempio, è possibile trovare la classe del nodo di una foglia attraverso frazioni di nodi.

Interpretare la curva ROC

La curva ROC indica la regolazione tra FPR (specificità) e TRP (sensibilità). Il classificatore nell’angolo in alto a sinistra specifica che le prestazioni sono migliori. Come standard, si ricevono punti da un classificatore casuale tra la diagonale.
FPR=TRP
Si può dire che il test è meno accurato se la curva è più vicina al 45° grado dello spazio ROC.
Il ROC non dipende dalla distribuzione della classe. Per questo motivo è possibile valutare gli eventi rari con classificatori predittivi come un disastro o una malattia. In confronto, l’accuratezza dell’equazione seguente aiuterà i classificatori che per lo più prevedono risultati negativi per una condizione o un evento raro.
(TP +TN)/(TP + TP + TN + FN + FP)

Conclusione

È possibile utilizzare la curva ROC per l’apprendimento delle macchine e per altri settori e industrie per trovare le rare condizioni che non dispongono di classificatori adeguati. È necessario prevedere i classificatori e identificare se la curva si trova lungo i 45 gradi dell’area ROC. I settori medici hanno trovato risultati ed esiti efficaci delle malattie rare.