Escolhendo as medidas corretas para as empresas encomendadas

Ok, aceite alguém que professou fazer um modelo completamente em sua mente para reconhecer opressores psicológicos que tentam carregar vôos com mais notavelmente do que 99% de precisão? Tudo considerado, aqui está o modelo: basta marcar todos que voam de um terminal aéreo dos EUA como não sendo um militante psicológico. Dados os 800 milhões de viajantes normais em vôos americanos todos os anos e os 19 (afirmados) viajantes com medo que embarcaram em vôos americanos de 2000 a 2017, este modelo atinge uma precisão incrível de 99,999999999%! Isso pode parecer incrível, no entanto, tenho dúvidas de que a Divisão de Segurança do País dos EUA não vai ligar em nenhum momento no futuro próximo para comprar este modelo. Embora este arranjo tenha uma exatidão quase impecável, esta é uma questão em que a precisão não é obviamente uma medida satisfatória!

A tarefa de descobrir o medo é uma questão de arranjo desequilibrado: temos duas classes que temos que distinguir – opressores psicológicos e não opressores psicológicos – com uma classificação falando para a maior parte dos focos de informação. Outra questão de ordem desequilibrada acontece na identificação de infecções quando o ritmo da doença nas pessoas, em geral, é extremamente baixo. Em ambos os casos a classe positiva – doença ou opressor psicológico – é enormemente anã pela classe negativa. Esse tipo de problema é um caso verdadeiramente normal na ciência da informação, quando a precisão não é certamente uma medida decente para a execução do modelo de levantamento.

Instintivamente, percebemos que a transmissão de todas as informações focadas como negativas na questão da identificação do opressor baseado no medo não é útil e, ao contrário, devemos nos concentrar em reconhecer os casos positivos. A métrica que nosso instinto nos revela que devemos ampliar é referida em medições como revisão, ou a capacidade de um modelo de descobrir todos os casos aplicáveis dentro de um conjunto de dados. O significado exato da revisão é o número de genuínos positivos dividido pelo número de genuínos positivos, além do número de falsos negativos. Positivos genuínos são pontos de informação denominados positivos pelo modelo que realmente é certo (o que significa que eles estão certos), e negativos falsos são focos de informação que o modelo distingue como negativos que realmente são certos (equivocados). No caso da opressão baseada no medo, os genuínos positivos são opressores psicológicos efetivamente reconhecidos, e os falsos negativos seriam pessoas que o modelo marca como não militantes psicológicos que realmente eram mestres do medo. Uma revisão pode ser pensada como a capacidade de um modelo de descobrir cada um dos pontos focais de informação de um conjunto de dados.

você pode ver algo sobre essa condição: na hipótese de nomearmos todas as pessoas como militantes psicológicos, nesse ponto nossa revisão vai para 1.0! Nós temos um classificador ideal, certo? Tudo considerado, na verdade não. Da mesma forma, com a maioria das idéias na ciência da informação, há uma troca nas medidas que decidimos aumentar. Por conta da revisão, quando incrementamos a revisão, declinamos a precisão. Mais uma vez, instintivamente, percebemos que um modelo que marca 100% dos viajantes como militantes psicológicos provavelmente não ajuda, tendo em vista o fato de que precisaríamos então proibir a todos de voar. As medições nos fornecem o jargão para expressar nosso instinto: este novo modelo experimentaria os efeitos nocivos da baixa precisão, ou a capacidade de um modelo de arranjo de reconhecer apenas os focos de informação aplicáveis.

A precisão é caracterizada como o número de genuínos positivos separados pelo número de genuínos positivos, além do número de falsos positivos. Positivos falsos são casos em que o modelo não tem nomes precisos como positivos que são realmente negativos, ou em nosso modelo, pessoas que o modelo organiza como opressores baseados no medo que certamente não são. Enquanto a revisão comunica a capacidade de localizar cada um dos exemplos pertinentes em um conjunto de dados, a precisão comunica a extensão dos focos de informação que o nosso modelo diz que foi significativo realmente foram importantes.

Atualmente, podemos ver que o nosso primeiro modelo que nomeou todas as pessoas como não militantes psicológicos não foi extremamente útil. Apesar de ter uma exatidão impecável, tinha 0 exatidão e 0 críticas, com o argumento de que não havia nenhum ponto positivo óbvio! Vamos supor que mudamos o modelo marginalmente, e distinguir um indivíduo solitário efetivamente como um opressor psicológico. Atualmente, nossa exatidão será de 1,0 (sem falsos positivos), mas nossa revisão será extremamente baixa, pois teremos, de qualquer forma, inúmeros falsos negativos. No caso de irmos ao próximo ultrajante e arranjarmos todos os viajantes como opressores baseados no medo, teremos uma revisão de 1.0 – vamos conseguir cada militante psicológico – ainda assim nossa exatidão será baixa e manteremos inúmeras pessoas honestas. No final do dia, à medida que aumentamos a exatidão, declinamos a revisão e o contrário.

Consolidando Precisão e Revisão

Em determinadas circunstâncias, podemos nos dar conta de que precisamos aumentar ou a revisão ou a precisão em detrimento da outra medição. Por exemplo, na triagem primária de pacientes malignos para avaliações de acompanhamento, muito provavelmente precisaríamos de uma revisão próxima a 1,0 – precisamos descobrir todos os pacientes que realmente têm a doença – e podemos reconhecer uma baixa precisão se o custo da avaliação subseqüente não for enorme. Seja como for, em situações em que precisamos localizar uma mistura ideal de exatidão e revisão, podemos unir as duas medidas utilizando o que é conhecido como escore F1.

O escore F1 é a média consonante de precisão e revisão considerando as duas medidas na condição de acompanhamento:

Nós utilizamos a média consonante em vez de uma normal direta, uma vez que ela repreende qualidades extraordinárias. Um classificador com uma precisão de 1,0 e uma revisão de 0,0 tem uma normal básica de 0,5 entretanto uma pontuação F1 de 0. A pontuação F1 dá uma carga equivalente às duas medidas e é um caso particular da métrica geral Fβ onde β pode ser aclimatada para dar mais peso à revisão ou precisão. (Há diferentes medidas para consolidar a exatidão e revisão, por exemplo, a Média Geométrica de exatidão e revisão, porém a pontuação de F1 é a mais utilizada). No caso de precisarmos fazer um modelo de ordem decente com a equalização ideal de revisão e exatidão, nesse momento tentamos ampliar a pontuação de F1.

Envolvendo Exactidão e Revisão

Eu joguei um par de novos termos para você e vamos passear por um guia para mostrar como eles são utilizados praticamente falando. Antes de chegarmos, porém, temos que discutir rapidamente duas idéias utilizadas para indicar a exatidão e a revisão.

A primeira é a matriz de confusão, que é valiosa para se verificar rapidamente a exatidão e a revisão, dadas as marcas antecipadas de um modelo. Uma malha de desarranjo para caracterização paralela mostra os quatro resultados distintos: genuíno positivo, falso positivo, genuíno negativo, e falso negativo. As qualidades genuínas estruturam as seções, e as qualidades antecipadas (marcas) estruturam as linhas. O ponto de cruzamento das linhas e seções mostra um dos quatro resultados. Por exemplo, na hipótese remota de prevermos um ponto de informação é certo, no entanto, é realmente negativo, este é um falso positivo.

Passar da grelha desordenada para a revisão e precisão requer encontrar as estimações separadas na rede e aplicar as condições:

A outra estratégia de representação primária para indicar a exposição de um modelo de caracterização é a curva da Marca de Trabalho Destinatária (ROC). Tente não dar ao nome enredado uma chance de afastá-lo! O pensamento geralmente é básico: a curva ROC mostra como a relação revisão versus exatidão muda à medida que mudamos o limite para o reconhecimento de um positivo em nosso modelo. O limite fala do incentivo acima do qual um ponto de informação é considerado na classe positiva. No caso de termos um modelo para distinguir uma infecção, nosso modelo pode render uma pontuação para cada paciente em algum lugar na faixa de 0 e 1 e podemos definir um limite nessa faixa para nomear um paciente como tendo a doença (um nome positivo). Modificando o limite, podemos tentar atingir a precisão correta versus o equilíbrio da revisão.

Uma curva ROC plota a taxa real positiva no y-hub versus a taxa falsa positiva no x-hub. A taxa genuinamente positiva (TPR) é a revisão e a taxa falsa positiva (FPR) é a probabilidade de uma precaução falsa. Ambas podem ser determinadas a partir do quadro de perplexidade:

Uma curva ROC típica é mostrada abaixo:

A linha oblíqua escura demonstra um classificador irregular e as curvas vermelha e azul mostram dois modelos de arranjo distintos. Para um determinado modelo, podemos apenas permanecer em uma curva, mas podemos nos mover ao longo da curva, mudando nossa borda para arranjar um caso positivo. Na maior parte do tempo, à medida que declinamos a borda, nos movemos para um lado e para cima ao longo da curva. Com um limite de 1,0, estaríamos na parte inferior esquerda do diagrama, uma vez que não distinguimos nenhuma informação que nos indique como positivos, sem positivos evidentes e sem falsos positivos (TPR = FPR = 0). À medida que diminuímos a margem, reconhecemos mais focos de informação como positivos, o que nos leva a todos os positivos mais óbvios, mas também a todos os falsos positivos (o incremento de TPR e FPR). No final, a uma borda de 0,0 reconhecemos todos os focos de informação como positivos e acabamos no canto superior direito da curva ROC (TPR = FPR = 1,0).

Finalmente, podemos avaliar a curva ROC de um modelo, determinando a região toda sob a curva (AUC), uma métrica que cai em algum lugar na faixa de 0 e 1 com um número maior, demonstrando uma melhor execução do arranjo. No diagrama ao lado, a AUC para a curva azul será mais proeminente que a curva vermelha, o que significa que o modelo azul é melhor na realização de uma mistura de precisão e revisão. Um classificador arbitrário (a linha escura) realiza uma AUC de 0,5.