O processo de classificação ajuda com a categorização do conjunto de dados em diferentes classes. Um modelo de aprendizagem por máquina permite:
– Enquadrar o problema,
– Recolher os dados,
– Acrescentar as variáveis,
– Treinar o modelo,
– Medir o desempenho,
– Melhorar o modelo com a ajuda da função de custo.
Mas como podemos medir o desempenho de um modelo? Comparando o modelo previsto com o modelo real? No entanto, isto não resolverá o problema da classificação. Uma matriz de confusão pode ajudá-lo a analisar os dados e a resolver o problema. Vamos compreender como esta técnica ajuda o modelo de aprendizagem da máquina.

Matriz de Confusão

A técnica de confusão matricular ajuda na medição do desempenho para a classificação da aprendizagem de máquinas. Com este tipo de modelo, é possível distinguir e classificar o modelo com os valores verdadeiros conhecidos no conjunto de dados de teste. O termo matriz de confusão é simples, mas confuso. Este artigo irá simplificar o conceito para que possa facilmente compreender e criar uma matriz de confusão por si próprio.

Cálculo da Matriz de Confusão

Siga estes passos simples para calcular a matriz de confusão para a extracção de dados:

Etapa 1

Estimar os valores dos resultados do conjunto de dados.

Passo 2

Testar o conjunto de dados com a ajuda da produção esperada.

Etapa 3

Preveja as filas no seu conjunto de dados de teste.

Passo 4

Calcular os resultados esperados e as previsões. É preciso considerar os:
– Previsões totais correctas da classe
– Previsões totalmente incorrectas da classe
Depois de executar estas etapas, é necessário organizar os números nos métodos abaixo:
– Ligar cada linha da matriz com a classe prevista
– Corresponder cada coluna da matriz com a classe real
– Introduzir a classificação correcta e incorrecta do modelo na tabela
– Incluir o total das previsões correctas na coluna prevista. Além disso, adicionar o valor da classe na linha prevista.
– Incluir o total das previsões incorrectas na linha prevista e o valor da classe na coluna prevista.

Compreender o resultado numa Matriz de Confusão

1. Verdadeiro Positivo

Os valores reais e previstos são os mesmos. O valor prognosticado do modelo é positivo, juntamente com um valor positivo real.

2. Verdadeiro Negativo

Os valores reais e previstos são os mesmos. O valor prognosticado do modelo é negativo, juntamente com um valor negativo real.

3. Falso Positivo (Erro de Tipo 1)

Os valores reais e previstos não são os mesmos. O valor prognosticado do modelo é positivo e falsamente previsto. No entanto, o valor real é negativo. Pode referir-se a isto como um erro de Tipo 1.

4. Falso Negativo (Erro de Tipo 2)

Os valores reais e previstos não são os mesmos. O valor prognosticado do modelo é negativo e falsamente previsto. No entanto, o valor real é positivo. Pode referir-se a este erro como um erro de Tipo 2.

Importância da Matriz de Confusão

Antes de responder à pergunta, devemos compreender o problema de classificação hipotética. Suponha que está a prever o número de pessoas infectadas com o vírus antes de mostrar os sintomas. Desta forma, pode isolá-las facilmente e assegurar uma população saudável. Podemos escolher duas variáveis para definir a população alvo: Infectada e não infectada.
Agora pode pensar, porquê utilizar uma matriz de confusão quando as variáveis são demasiado simples. Bem, esta técnica ajuda com a precisão da classificação. Os dados deste exemplo são o conjunto de dados desequilibrado. Vamos supor que temos 947 pontos de dados negativos e três pontos de dados positivos. Agora vamos calcular a exactidão com esta fórmula:

Com a ajuda da tabela seguinte, é possível verificar a exactidão:

Os valores totais de saída serão:
TP = 30, TN = 930, FP = 30, FN = 10
Assim, é possível calcular a precisão do modelo como:

96% de exactidão para um modelo é incrível. Mas só se pode gerar a ideia errada a partir do resultado. De acordo com este modelo, pode-se prever as pessoas infectadas 96% do tempo. No entanto, o cálculo prevê que 96% da população não será infectada. No entanto, as pessoas doentes continuam a espalhar o vírus.
Este modelo parece ser a solução perfeita para o problema, ou devemos medir os casos positivos e isolá-los para impedir a propagação do vírus. Por conseguinte, utilizamos uma matriz de confusão para resolver este tipo de problemas. Aqui estão alguns benefícios da matriz de confusão:
– A matriz ajuda na classificação do modelo, ao mesmo tempo que faz as previsões
– Esta técnica significa o tipo e a percepção dos erros para que se possa compreender facilmente o caso
– Pode ultrapassar a restrição com a classificação exacta dos dados
– As colunas da matriz de confusão representarão as instâncias da classe prevista
– Cada fila indicará as instâncias da classe real
– A matriz de confusão destacará os erros que o classificador

Matriz de Confusão em Python

Agora, como conhece o conceito da matriz de confusão, pode praticar usando o seguinte código em Python com a ajuda da biblioteca Scikit-learn.
# matriz de confusão em sklearn
fromsklearn.metricsimportconfusion_matrix
fromsklearn.metricsimportante_reportarclassificação

# valores reais
real = [1,0,0,0,1,0,0,1,0,0,0,1]
# valores previstos
previsto = [1,0,0,1,0,0,0,0,0,1,0,0]

# matriz de confusão
matrix =confusion_matrix(real,previsto, etiquetas=[1,0])
print(‘Confusion matrix : \n’,matrix)

# ordem dos valores dos resultados em sklearn
tp, fn, fp, fp, tn=confusion_matrix(actual,previsto,etiquetas=[1,0]).reshape(-1)
print(‘Outcome values : \n’, tp, fn, fp, tn)

# relatório de classificação para precisão, retirada da pontuação f1 e precisão
matrix =classification_report(real,previsto,etiquetas=[1,0])
print(‘Relatório de classificação : \n’,matrix)

Conclusão

A matriz de confusão ajuda com a restrição na precisão do método de classificação. Além disso, destaca detalhes importantes sobre as diferentes classes. Além disso, analisa as variáveis e os dados para que se possa comparar os dados reais com a previsão.