Une matrice de confusion est un tableau qui sert à décrire la performance d’un modèle de classification sur un ensemble de données d’essai dont les valeurs réelles sont connues. La matrice de confusion elle-même est relativement simple à comprendre, mais la terminologie qui s’y rapporte peut prêter à confusion.

J’ai dû faire une “gestion de référence rapide” pour la formulation du cadre de perplexité car je n’arrivais pas à trouver un atout actuel qui corresponde à mes besoins : minimisé dans l’introduction, en utilisant des chiffres plutôt que des facteurs d’affirmation de soi, et clarifié à la fois en ce qui concerne les équations et les phrases.

Et si nous commencions par un modèle de treillis de désorganisation pour un classificateur parallèle (cependant, il peut sans aucun doute être étendu à l’instance de plusieurs classes) :

Que pouvons-nous apprendre de cette matrice ?

Il y a deux classes anticipées concevables : “oui” et “non”. Dans le cas où nous anticiperions la proximité d’une infection, par exemple, “oui” signifierait qu’ils ont la maladie, et “non” signifierait qu’ils n’ont pas la maladie.

Le classificateur a fait une somme de 165 attentes (par exemple, 165 patients étaient jugés pour la proximité de cette infection).

Sur ces 165 cas, le classificateur a anticipé plusieurs fois “oui” et plusieurs fois “non”.

En réalité, 105 patients dans l’exemple ont l’infection, et 60 patients ne l’ont pas.

Et si nous caractérisions actuellement les termes les plus fondamentaux, qui sont des nombres entiers (et non des taux) :

les vrais positifs (TP) : Il s’agit de cas dans lesquels nous avons prédit que oui (ils ont la maladie), et ils ont effectivement la maladie.

les vrais négatifs (TN) : Nous avions prédit que non, et ils n’ont pas la maladie.

les faux positifs (FP) : Nous avions prédit que oui, mais ils n’ont pas vraiment la maladie. (Aussi connu comme une “erreur de type I”).

les faux négatifs (FN) : Nous avions prédit que non, mais ils ont effectivement la maladie. (Aussi connu comme une “erreur de type II”).

J’ai ajouté ces termes à la matrice de confusion, et j’ai également ajouté les totaux des lignes et des colonnes :

Il y a deux classes anticipées concevables : “oui” et “non”. Dans le cas où nous anticiperions la proximité d’une maladie, par exemple, “oui” signifierait qu’ils ont l’infection, et “non” signifierait qu’ils n’ont pas la maladie.

Le classificateur a fait une somme de 165 attentes (par exemple, 165 patients étaient jugés pour la proximité de cette maladie).

Sur ces 165 cas, le classificateur a anticipé plusieurs fois “oui” et plusieurs fois “non”.

En règle générale, 105 patients dans l’exemple ont la maladie, et 60 patients ne l’ont pas.

Nous devons maintenant caractériser les termes les plus essentiels, qui sont des nombres entiers (et non des taux) :

les vrais positifs (TP) : Il s’agit de cas dans lesquels nous avons prédit que oui (ils ont la maladie), et ils ont effectivement la maladie.

les vrais négatifs (TN) : Nous avions prédit que non, et ils n’ont pas la maladie.

les faux positifs (FP) : Nous avions prédit que oui, mais ils n’ont pas vraiment la maladie. (Aussi connu comme une “erreur de type I”).

les faux négatifs (FN) : Nous avions prédit que non, mais ils ont effectivement la maladie. (Aussi connu comme une “erreur de type II”).

J’ai ajouté ces termes au réseau de désorganisation, et j’ai en outre inclus les agrégats de lignes et de segments : ne pouvons-nous pas tirer des enseignements de cette matrice ?

Il s’agit d’un récapitulatif des tarifs qui sont régulièrement traités à partir d’un réseau de perplexité pour un double classificateur :

Précision : En général, à quelle fréquence le classificateur est-il correct ?

(TP+TN)/toutes les sorties = (100+50)/165 = 0,91

Taux d’erreurs de classification : Dans l’ensemble, dans quelle mesure les erreurs sont-elles fréquentes ?

(FP+FN)/toutes les sorties = (10+5)/165 = 0,09

proportionnel à 1 court Exactitude

autrement appelé “taux d’erreur”.

Véritable taux positif : Lorsqu’il est vraiment positif, à quelle fréquence prévoit-il de répondre oui ?

TP/réel oui = 100/105 = 0,95

autrement appelée “affectabilité” ou “révision”.

Taux de faux positifs : Lorsqu’il est calme, à quelle fréquence prévoit-il oui ?

FP/n° réel = 10/60 = 0,17

Taux négatif réel : Lorsqu’il est entièrement, à quelle fréquence prévoit-il non ?

TN/n° réel = 50/60 = 0,83

égal à 1 taux de faux positif court

autrement appelé “Explicite”.

précision : Quand elle prédit vraiment, à quelle fréquence est-elle juste ?

TP/prévu oui = 100/110 = 0,91

La prévalence : Quelle est la fréquence réelle de la condition du “oui” dans notre exemple ?

authentique oui/tout dehors = 105/165 = 0,64

Quelques termes différents méritent également d’être mentionnés :

Taux d’erreur invalide : C’est le moyen par lequel régulièrement vous n’auriez pas le droit au hasard que vous avez généralement anticipé la classe de la part du lion. (Dans notre modèle, le taux d’erreur non valable serait de 60/165=0,36 ; dans un tel cas que vous avez généralement anticipé vraiment, vous n’auriez tout simplement pas raison pour les 60 cas “non”). Cela peut être un modèle de mesure utile pour réfléchir à votre classificateur. En tout état de cause, le meilleur classificateur pour une application spécifique aura dans certains cas un taux d’erreur plus élevé que le taux d’erreur non valable, comme le montre le Precision Catch 22.

Kappa de Cohen : Il s’agit essentiellement d’une proportion de la qualité de l’exécution du classificateur par rapport à la qualité de ses performances, essentiellement par une certaine coïncidence. En fin de compte, un modèle aura un score Kappa élevé s’il y a une distinction majeure entre la précision et le taux de bévues invalides. (Plus d’informations sur le Kappa de Cohen).

Score F : Il s’agit d’une normale pondérée du taux positif réel (examen) et de l’exactitude. (Plus d’informations sur le F Score).

ROC Bend : Il s’agit d’un tableau généralement utilisé qui décrit la présentation d’un classificateur sur tous les bords imaginables. Il est créé en traçant le taux positif réel (pivot y) par rapport au taux positif fictif (moyeu x) lorsque vous modifiez la limite de relégation des perceptions à une classe donnée. (Plus d’informations sur les courbes ROC).

Enfin, pour ceux d’entre vous qui viennent de l’univers des idées bayésiennes, voici un résumé rapide de ces termes tirés de Applied Prescient Displaying :

En ce qui concerne les mesures bayésiennes, l’affectabilité et l’explicitation sont les probabilités restrictives, l’omniprésence est la plus précoce, et les qualités anticipées positives/négatives sont les probabilités de retour.