La mesure des performances est essentielle pour les activités d’apprentissage machine. ROC ou Area Under Curve/AUC nous aide à résoudre les problèmes que nous rencontrons lors de la classification. Lorsque nous vérifions ou visualisons les performances des différentes classifications d’un modèle, nous utilisons ces mesures ou courbes pour évaluer le résultat. ROC est l’abréviation de Receiver Operating Characteristics, et AUC est l’Area Under the Curve. Nous pouvons également écrire ce terme comme AUROC ou Area Under the Receiver Operating Characteristics.

Surface sous la courbe (AUC)

L’AUC aide à comparer les différents classificateurs. Vous pouvez résumer les performances de chaque classificateur en une seule mesure. L’approche de base pour trouver la CUA est de calculer l’AUROC. Elle est similaire à la probabilité que l’instance négative aléatoire soit inférieure à l’instance positive. Si un classificateur a une CUA inférieure à celle d’un autre classificateur, cela signifie normalement que le score de la CUA élevée n’est pas bon. Cependant, la SSC fonctionne bien dans le cadre de la mesure générale de la précision prédictive.

Quelques termes importants

La matrice de la confusion

Lorsque les classes de sortie sont plus d’une, vous pouvez utiliser la mesure de la confusion pour résoudre les problèmes de classification de l’apprentissage machine. Le tableau de la matrice de confusion comprend quatre combinaisons différentes de valeurs réelles et prédites. Vous pouvez utiliser cette technique pour mesurer la spécificité, la précision, le rappel, l’exactitude et le sujet dont nous discutons aujourd’hui, la CUA et la courbe ROC. Comprenons les termes que la matrice de confusion contient en utilisant l’exemple de la grossesse :

Vrai Positif

L’interprétation du vrai positif est que vous prévoyez le positif, et c’est une déclaration vraie. Par exemple, une femme est enceinte, et vous prévoyez la même chose.

Vrai négatif

L’interprétation du vrai négatif est que vous prévoyez le négatif, et c’est une déclaration vraie. Par exemple, un homme n’est pas enceinte, et vous prévoyez la même chose.

Faux positif

L’interprétation faussement positive est que vous prévoyez le positif, et ce n’est pas une déclaration vraie. Par exemple, un homme n’est pas enceinte, mais vous prédisez qu’il est enceinte. Cette prédiction est une erreur de type 1.

Faux négatif

La véritable interprétation négative est que vous prévoyez le négatif, et ce n’est pas une déclaration vraie. Par exemple, une femme n’est pas enceinte, mais vous prévoyez qu’elle est enceinte. Cette prédiction est une erreur de type 2.
Vous devez vous rappeler que les valeurs réelles sont vraies et fausses, et que les valeurs que vous prévoyez sont positives et négatives.

Sensibilité et spécificité

Divers domaines mesurent collectivement la sensibilité et la spécificité. Toutefois, il s’agit de mesures distinctes. Vous pouvez utiliser la sensibilité et la spécificité pour prédire la performance de la classification du modèle. En outre, vous pouvez également utiliser ces mesures pour effectuer un test de diagnostic.
Par exemple, si l’on veut mesurer l’efficacité d’un test de diagnostic dans un état médical :

La sensibilité mesurera combien de personnes souffrent de la maladie ou combien sont positives.

La spécificité mesurera le nombre de personnes qui ne souffrent pas de la maladie ou le nombre de personnes qui sont négatives.

Régression logistique

La régression logistique est un algorithme que vous pouvez utiliser dans l’apprentissage automatique pour les problèmes de classification. Cet algorithme est l’analyse prédictive, la probabilité, et son concept. Vous pouvez également appeler cet algorithme, modèle de régression linéaire. Cependant, la régression linéaire a une fonction de coût complexe par rapport à la régression logistique. Vous pouvez définir la fonction de coût de la régression logistique comme étant la fonction sigmoïde ou la fonction logistique.
L’hypothèse de cet algorithme limitera la fonction de coût de zéro à un. Cependant, la fonction linéaire la représente comme étant supérieure à un ou inférieure à zéro. Cette condition est impossible dans l’hypothèse de la régression logistique.

Comprendre le concept

Créer une courbe ROC

Vous pouvez construire une courbe ROC en plaçant le TPR ou taux positif vrai et le FPR ou taux positif faux l’un par rapport à l’autre. Le taux positif réel est celui des observations que vous prévoyez correctement comme positives à partir de toutes les observations positives. La représentation mathématique est :
TP/(TP + FN)
De même, le taux de faux positifs correspond aux observations que vous prévoyez à tort comme positives à partir de toutes les observations négatives. La représentation mathématique est :
FP/(TN + FP)
Par exemple, lorsque vous effectuez un test médical pour une maladie, le taux auquel vous identifiez correctement les personnes pour les résultats positifs est le véritable taux de positivité.
Vous ne pouvez obtenir un seul point dans l’espace ROC que si le classificateur ne renvoie que votre classe de prédiction. Toutefois, lorsque les classificateurs sont problématiques et qu’ils ont un score ou une probabilité qui appartient à une classe plutôt qu’à d’autres, vous pouvez créer une courbe avec un seuil de score variable. Vous pouvez convertir divers classificateurs discrets en classificateurs de score en trouvant leurs statistiques. Par exemple, vous pouvez trouver la classe du nœud d’une feuille à travers des fractions de nœuds.

Interprétation de la courbe ROC

La courbe ROC signifie l’ajustement entre le FPR (spécificité) et le TRP (sensibilité). Le classificateur dans le coin supérieur gauche précise que la performance est meilleure. En standard, vous recevrez des points d’un classificateur aléatoire entre la diagonale.
FPR=TRP
On peut dire que le test est moins précis si la courbe est plus proche des 45 degrés de l’espace ROC.
Le ROC ne dépend pas de la distribution des classes. C’est pourquoi vous pouvez évaluer les événements rares avec des classificateurs prédictifs tels qu’une catastrophe ou une maladie. En comparaison, la précision de l’équation suivante aidera les classificateurs qui prédisent principalement des résultats négatifs pour une maladie ou un événement rare.
(TP +TN)/(TP + TN + FN + FP)

Conclusion

Vous pouvez utiliser la courbe ROC pour l’apprentissage machine et d’autres secteurs et industries pour trouver les rares conditions qui n’ont pas de classificateurs appropriés. Vous devez prévoir les classificateurs et déterminer si la courbe se trouve le long des 45 degrés de la zone ROC. Les secteurs médicaux ont trouvé des résultats et des issues efficaces pour les maladies rares.