Choisir les bonnes mesures pour les entreprises de commande

D’accord, accepter que quelqu’un qui a prétendu faire un modèle complètement dans son esprit reconnaisse les oppresseurs psychologiques qui tentent de charger des vols avec une précision plus remarquable que 99% ? Tout bien considéré, voici le modèle : marquez simplement tous ceux qui volent depuis un terminal aérien américain comme n’étant pas des militants psychologiques. Compte tenu des 800 millions de voyageurs normaux qui prennent des vols américains chaque année et des 19 (affirmés) “fear mongers” qui ont embarqué sur des vols américains entre 2000 et 2017, ce modèle atteint une précision étonnante de 99,9999999% ! Cela peut paraître incroyable, mais je doute que la division américaine de la sécurité nationale n’appelle à aucun moment dans un avenir proche pour acheter ce modèle. Bien que cet arrangement ait une précision presque impeccable, il s’agit d’une question dans laquelle la précision n’est évidemment pas une mesure satisfaisante !

La tâche de découverte du terroriste est une question d’arrangement déséquilibré : nous devons distinguer deux classes – les oppresseurs psychologiques et non les oppresseurs psychologiques – avec une classification qui s’adresse à la plus grande partie des centres d’information. Un autre problème d’ordre déséquilibré se produit dans l’identification des infections lorsque le rythme de la maladie chez les personnes, en général, est extrêmement faible. Dans ces deux cas, la classe positive – maladie ou oppresseur psychologique – est énormément éclipsée par la classe négative. Ce genre de problèmes est un cas tout à fait normal dans les sciences de l’information, où la précision n’est certainement pas une mesure décente pour l’exécution d’un modèle d’enquête.

Instinctivement, nous nous rendons compte que la diffusion de toutes les informations se concentre sur les aspects négatifs de la question de l’identification des oppresseurs basée sur la peur, ce qui n’est pas utile et que nous devrions plutôt nous concentrer sur la reconnaissance des cas positifs. La mesure que notre instinct nous révèle et que nous devrions amplifier est appelée dans les mesures “examen”, ou la capacité d’un modèle à découvrir tous les cas applicables à l’intérieur d’un ensemble de données. La signification exacte de l’examen est le nombre de vrais positifs divisé par le nombre de vrais positifs en plus du nombre de faux négatifs. Les vrais positifs sont des points d’information nommés positifs par le modèle qui sont vraiment certains (ce qui signifie qu’ils ont raison), et les faux négatifs sont des points d’information que le modèle distingue comme négatifs qui sont vraiment sûrs (erronés). Dans le cas de l’oppression fondée sur la peur, les vrais positifs sont des oppresseurs psychologiques effectivement reconnus, et les faux négatifs seraient des personnes que le modèle marque comme n’étant pas des militants psychologiques qui sont en réalité des faiseurs de peur. Un examen peut être considéré comme la capacité d’un modèle à découvrir chacun des points focaux d’information d’un ensemble de données.

vous verrez peut-être quelque chose à propos de cette condition : au cas où nous nommerions tous les gens comme des militants psychologiques, à ce moment-là notre révision passera à 1.0 ! Nous avons un classificateur idéal, n’est-ce pas ? Tout bien considéré, pas vraiment. De même, avec la plupart des idées en science de l’information, il y a un échange de mesures que nous décidons d’augmenter. En raison de la révision, lorsque nous augmentons la révision, nous déclinons la précision. Une fois de plus, nous réalisons instinctivement qu’un modèle qui marque 100 % des voyageurs comme des militants psychologiques n’est probablement pas utile, étant donné qu’il faudrait alors interdire à tout le monde de prendre l’avion. Les mesures nous fournissent le jargon nécessaire pour exprimer notre instinct : ce nouveau modèle subirait les effets néfastes d’une faible précision, ou la capacité d’un modèle d’arrangement à reconnaître uniquement les centres d’information applicables.

L’exactitude se caractérise par le nombre de vrais positifs séparés par le nombre de vrais positifs en plus du nombre de faux positifs. Les faux positifs sont des cas que le modèle nomme de façon inexacte comme positifs et qui sont vraiment négatifs, ou dans notre modèle, des personnes que le modèle classe comme des oppresseurs basés sur la peur et qui ne le sont certainement pas. Alors que l’examen permet de localiser chaque exemple pertinent dans un ensemble de données, la précision permet de connaître l’étendue des informations que notre modèle considère comme importantes.

Actuellement, nous pouvons constater que notre premier modèle qui désignait toutes les personnes comme n’étant pas des militants psychologiques n’était pas extrêmement utile. Bien qu’il ait été d’une exactitude presque irréprochable, il n’avait aucune précision et aucun examen, car il n’y avait aucun point positif évident ! Supposons que nous modifions légèrement le modèle, et que nous distinguions efficacement un individu solitaire comme un oppresseur psychologique. Actuellement, notre précision sera de 1,0 (pas de faux positifs), mais notre évaluation sera extrêmement faible, car nous aurons de toute façon de nombreux faux négatifs. Dans le cas où nous passerions au prochain scandale et que nous ferions de tous les voyageurs des oppresseurs basés sur la peur, nous aurons une évaluation de 1.0 – nous aurons chaque militant psychologique – mais notre exactitude sera faible et nous garderons de nombreuses personnes honnêtes. En fin de compte, à mesure que nous augmentons la précision, nous refusons la révision et vice versa.

Consolider l’exactitude et la révision

Dans certaines circonstances, nous pouvons nous rendre compte qu’il faut renforcer soit la révision soit la précision au détriment de l’autre mesure. Par exemple, pour le dépistage initial de la maladie chez les patients en vue des évaluations de suivi, nous aurions très probablement besoin d’un examen proche de 1,0 – nous devons découvrir tous les patients qui sont réellement atteints de la maladie – et nous pouvons reconnaître une faible précision si le coût de l’évaluation ultérieure n’est pas énorme. Quoi qu’il en soit, dans les situations où nous devons trouver un mélange idéal d’exactitude et d’examen, nous pouvons joindre les deux mesures en utilisant ce que l’on appelle le score F1.

Le score F1 est la moyenne des consonnes de la précision et de la révision, compte tenu des deux mesures dans la condition d’accompagnement :

Nous utilisons la consonne moyenne plutôt qu’une simple normale car elle rejette les qualités extraordinaires. Un classificateur avec une exactitude de 1,0 et une révision de 0,0 a une normale de base de 0,5 mais un score F1 de 0. Le score F1 donne une charge équivalente aux deux mesures et est un cas particulier de la métrique générale Fβ où β peut être acclimaté pour donner plus de poids à la révision ou à l’exactitude. (Il existe différentes mesures pour consolider l’exactitude et l’examen, par exemple, la moyenne géométrique de l’exactitude et de l’examen, mais le score F1 est le plus souvent utilisé). Dans le cas où nous devons établir un modèle d’ordre décent avec l’égalisation idéale de l’examen et de l’exactitude, nous tentons alors d’amplifier la note F1.

Prévoir l’exactitude et la révision

Je vous ai lancé quelques nouveaux termes et nous allons parcourir un guide pour montrer comment ils sont utilisés dans la pratique. Mais avant d’arriver, nous devons rapidement discuter des deux idées utilisées pour indiquer l’exactitude et la révision.

Tout d’abord, la matrice de confusion, qui est précieuse pour vérifier rapidement l’exactitude et l’examen des marques prévues d’un modèle. Un treillis de confusion pour la caractérisation parallèle montre les quatre résultats distincts : positif véritable, positif fictif, négatif véritable et négatif fictif. Les qualités réelles structurent les sections, et les qualités attendues (marques) structurent les lignes. Le point de croisement des lignes et des sections montre l’un des quatre résultats. Par exemple, si, par hasard, nous prévoyons qu’un point d’information est certain, mais qu’il est vraiment négatif, il s’agit d’un faux positif.

Passer de la grille de désarroi à l’examen et à la précision nécessite de trouver les estime distinctes dans le réseau et d’appliquer les conditions :

L’autre stratégie de représentation principale pour indiquer l’exposition d’un modèle de caractérisation est le coude ROC (Recipient Working Trademark). Essayez de ne pas donner au nom enchevêtré une chance de vous éloigner ! L’idée est généralement simple : la courbe ROC montre comment la relation entre examen et exactitude change lorsque nous déplaçons la limite de reconnaissance d’un positif dans notre modèle. La limite correspond à l’incitation au-delà de laquelle un point d’information est considéré comme positif. Dans le cas où nous disposons d’un modèle permettant de distinguer une infection, notre modèle peut donner un score pour chaque patient se situant entre 0 et 1 et nous pouvons fixer une limite dans cette fourchette pour nommer un patient comme ayant la maladie (un nom positif). En modifiant la limite, nous pouvons tenter d’obtenir un équilibre entre la précision et la révision.

Une courbe ROC trace le taux positif réel sur le moyeu Y par rapport au taux positif fictif sur le moyeu X. Le taux positif réel (TPR) est l’examen et le taux positif fictif (FPR) est la probabilité d’une fausse alerte. Ces deux éléments peuvent être déterminés à partir du cadre de la perplexité :

Une courbe ROC typique est présentée ci-dessous :

La ligne oblique sombre montre un classificateur irrégulier et les courbes rouges et bleues montrent deux modèles d’agencement distincts. Pour un modèle donné, nous pouvons rester sur un seul coude, mais nous pouvons nous déplacer le long du coude en changeant notre bord pour arranger un cas positif. Dans la plupart des cas, lorsque nous déclinons le bord, nous nous déplaçons d’un côté et vers le haut le long du coude. Avec une limite de 1,0, nous serions dans le coin inférieur gauche du diagramme puisque nous ne distinguons aucune information indiquant comme positif n’entraînant aucun positif évident et aucun faux positif (TPR = FPR = 0). À mesure que nous diminuons la limite, nous reconnaissons que plus d’informations sont indiquées comme positives, ce qui entraîne des positifs plus évidents, mais aussi des positifs fictifs (l’incrément TPR et FPR). En fin de compte, à une extrémité de 0,0, nous reconnaissons que tous les foyers d’information sont positifs et se retrouvent dans le coin supérieur droit du coude ROC (TPR = FPR = 1,0).

Enfin, nous pouvons évaluer la courbe ROC d’un modèle en déterminant la région sous la courbe (AUC), une mesure qui se situe entre 0 et 1 avec un nombre plus élevé démontrant une meilleure exécution de l’arrangement. Dans le diagramme ci-dessus, l’AUC pour le coude bleu sera plus importante que celle pour le coude rouge, ce qui signifie que le modèle bleu est plus performant en termes de précision et d’examen. Un classificateur arbitraire (la ligne noire) réalise une CUA de 0,5.