A medição do desempenho é essencial para actividades de aprendizagem de máquinas. ROC ou Área Sob Curva/AUC ajuda-nos a resolver os problemas que enfrentamos durante a classificação. Ao verificar ou visualizar a forma como as diferentes classificações de um modelo estão a funcionar, utilizamos estas métricas ou curvas para avaliar o resultado. ROC é a abreviatura de Receiver Operating Characteristics, e AUC é a Área sob a Curva. Também podemos escrever este termo como AUROC ou Área sob as Características Operacionais do Receptor.

Área sob a Curva (AUC)

A AUC ajuda na comparação de diferentes classificadores. É possível resumir o desempenho de cada classificador numa única medida. A abordagem básica para encontrar a AUC é calcular a AUROC. É semelhante à probabilidade de que a instância negativa aleatória seja inferior à instância positiva. Se um classificador tiver um AUC inferior a outro classificador, isso significa normalmente que a pontuação do AUC elevado não é boa. No entanto, a CUA funciona bem sob a medida geral da precisão preditiva.

Algumas Terminologias Importantes

A Matriz de Confusão

Quando as aulas de saída são mais do que uma, é possível usar a medição da confusão para resolver problemas de classificação da aprendizagem de máquinas. A tabela de matriz de confusão inclui quatro combinações diferentes de valores reais e previstos. Pode utilizar esta técnica para medir a especificidade, precisão, recordação, exactidão, e o tópico que discutimos hoje, AUC e curva ROC. Vamos compreender os termos que a matriz de confusão contém, utilizando o exemplo da gravidez:

Verdadeiro Positivo

A interpretação do verdadeiro positivo é que se prevê o positivo, e é uma afirmação verdadeira. Por exemplo, uma mulher está grávida, e o senhor prevê o mesmo.

Verdadeiro Negativo

A interpretação do verdadeiro negativo é que se prevê o negativo, e é uma afirmação verdadeira. Por exemplo, um homem não está grávido, e prevê-se o mesmo.

Falso Positivo

A interpretação falso-positiva é que se prevê o positivo, e não é uma afirmação verdadeira. Por exemplo, um homem não está grávido, mas prevê-se que está grávido. Esta predição é um erro de Tipo 1.

Falso Negativo

A verdadeira interpretação negativa é que se prevê o negativo, e não é uma afirmação verdadeira. Por exemplo, uma mulher não está grávida, mas prevê-se que ela está grávida. Esta previsão é um erro de Tipo 2.
Deve lembrar-se de que os valores reais são verdadeiros e falsos, e os valores que prevê são positivos e negativos.

Sensibilidade e especificidade

Vários domínios medem colectivamente a sensibilidade e a especificidade. No entanto, estas são medidas separadas. Pode-se utilizar a sensibilidade e a especificidade para prever o desempenho da classificação do modelo. Além disso, também é possível utilizar estas medidas para realizar um teste de diagnóstico.
Por exemplo, se quisermos medir a eficácia de um teste de diagnóstico numa condição médica:

A sensibilidade irá medir quantas pessoas sofrem da doença ou quantas são positivas.

A especificidade irá medir quantas pessoas não estão a sofrer da doença ou quantas são negativas.

Regressão logística

A regressão logística é um algoritmo que se pode utilizar na aprendizagem de máquinas para problemas de classificação. Este algoritmo é análise preditiva, probabilidade, e o seu conceito. Também se pode chamar a este algoritmo modelo de regressão linear. No entanto, a regressão linear tem uma função de custo complexa em comparação com a regressão logística. Pode-se definir a função de custo da regressão logística como a função sigmóide ou função logística.
A hipótese neste algoritmo limitará a função de custo de zero para um. No entanto, a função linear representa que seja maior do que um ou menor do que zero. Esta condição é impossível contra a hipótese da regressão logística.

Compreender o Conceito

Criação de uma Curva ROC

Pode-se construir uma curva ROC colocando o TPR ou taxa positiva verdadeira e FPR ou taxa falso positiva um contra o outro. A taxa verdadeiramente positiva são as observações que prevê correctamente como positivas a partir de todas as observações positivas. A representação matemática é:
TP/(TP + FN)
Da mesma forma, a taxa de falsos positivos são as observações que se prevê incorrectamente como positivas a partir de todas as observações negativas. A representação matemática é:
FP/(TN + FP)
Por exemplo, ao realizar um teste médico para uma doença, a taxa a que se identifica correctamente as pessoas para os resultados positivos é a taxa verdadeiramente positiva.
Só pode obter um único ponto no espaço ROC se o classificador só devolver a sua classe de previsão. No entanto, quando os classificadores são problemáticos e têm uma pontuação ou probabilidade que pertence a uma classe em vez de outras, pode criar uma curva com um limiar de pontuação variável. Pode converter vários classificadores discretos em classificadores de pontuação, encontrando as suas estatísticas. Por exemplo, é possível encontrar a classe do nó de uma folha através de fracções dos nós.

Interpretar a curva ROC

A curva ROC significa o ajustamento entre a FPR (especificidade) e a TRP (sensibilidade). O classificador no canto superior esquerdo especifica que o desempenho é melhor. Como padrão, receberá pontos de um classificador aleatório entre a diagonal.
FPR=TRP
Pode-se dizer que o teste é menos preciso se a curva estiver mais próxima dos 45 graus do espaço ROC.
A ROC não depende da distribuição de classes. É por isso que se pode avaliar os eventos raros com classificadores preditivos, tais como um desastre ou uma doença. Em comparação com isso, a precisão da equação seguinte ajudará os classificadores que na sua maioria prevêem resultados negativos para uma condição ou evento raro.
(TP +TN)/(TP + TN + FN + FP)

Conclusão

Pode utilizar a curva ROC para a aprendizagem de máquinas e outros sectores e indústrias para encontrar as raras condições que não têm classificadores adequados. É necessário prever os classificadores e identificar se a curva está ao longo dos 45 graus da área ROC. Os sectores médicos encontraram resultados eficazes e resultados de doenças raras.