La détection d’anomalies est une stratégie utilisée pour reconnaître des exemples étranges qui ne correspondent pas à la conduite prévue, appelés anomalies. Elle a de nombreuses applications dans le monde des affaires, de la reconnaissance d’interruption (reconnaître des exemples anormaux dans le trafic du système qui pourraient signaler un piratage) à l’observation du bien-être du cadre (détecter une tumeur dangereuse dans un filtre à rayons X), et de l’identification de l’extorsion dans les échanges de visas à la localisation de la faute dans les situations de travail.

Ce diagramme couvrira quelques stratégies pour reconnaître les anomalies, tout comme la façon de fabriquer un identificateur en Python en utilisant la normale mobile de base (SMA) ou le canal passe-bas.

Quelles sont les particularités ?

Avant de commencer, il est impératif d’établir certaines limites à la signification d’une bizarrerie. Les anomalies peuvent être classées de manière exhaustive comme :

Incohérences ponctuelles : Un exemple d’information isolée est étrange si elle est excessivement éloignée du reste. Cas d’utilisation commerciale : Distinguer l’extorsion de visa en fonction de la “somme dépensée”.

Les bizarreries pertinentes : L’anomalie est définie de manière explicite. Ce type d’étrangeté est fondamental dans les informations relatives à l’aménagement du temps. Cas d’utilisation commerciale : Brûler 100 $ de nourriture de façon constante pendant la période de Noël est ordinaire, mais peut être bizarre en général.

Particularités de l’agrégat : De nombreux exemples d’informations, dans l’ensemble, aident à reconnaître les irrégularités. Cas d’utilisation commerciale : Quelqu’un tente de dupliquer la structure de l’information d’une machine distante vers un hôte voisin, à l’improviste, une particularité qui serait saluée comme une attaque numérique potentielle.

L’identification des particularités est comme – mais pas tant que ça – l’expulsion des clameurs et la découverte des bizarreries. L’identification de la curiosité s’inquiète de reconnaître un exemple secret dans les nouvelles perceptions exclues dans la préparation des informations – comme un enthousiasme inattendu pour une autre chaîne sur YouTube pendant Noël, par exemple. L’évacuation de la commotion (NR) est le moyen de vacciner l’examen contre l’éventualité de perceptions indésirables ; à la fin de la journée, l’expulsion de la clameur d’un signe généralement important.

Procédures de localisation des anomalies

Des techniques factuelles simples

La façon la plus simple de traiter les anomalies de distinction de l’information est de signaler aux foyers d’information qui s’écartent des propriétés mesurables de base de la circulation, notamment la moyenne, le milieu, le mode et les quantiles. Supposons que la signification d’un point d’information irrégulier soit celle qui s’écarte de la moyenne par un écart type spécifique. La navigation des moyens après un certain temps d’arrangement de l’information n’est pas vraiment sans importance, car elle n’est pas statique. Il vous faudrait une fenêtre mobile pour traiter les points d’information normaux. En fait, il s’agit d’une normale mobile ou d’une normale mobile, et il est proposé de lisser les variations transitoires et de mettre en évidence les variations à long terme. Numériquement, la normale mobile simple d’une période peut également être caractérisée comme un “canal passe-bas”.

Méthodologies basées sur l’IA

Voici un bref aperçu des principales procédures basées sur l’IA pour l’identification des anomalies.

Détection d’anomalie basée sur la densité

La détection d’anomalies basée sur la densité est basée sur l’algorithme des voisins les plus proches (k).

Supposition : Les foyers d’information typiques se produisent dans un quartier dense et les écarts par rapport à la norme sont très éloignés.

La disposition la plus proche des centres d’information est évaluée à l’aide d’un score, qui peut être une séparation énuclédienne ou une mesure comparable en fonction du type d’information (totale ou numérique). Ils peuvent être classés de manière exhaustive en deux calculs :

K-plus proche voisin : k-NN est une méthode d’apprentissage de base, non paramétrique et lente, utilisée pour organiser les informations dépendantes des similitudes dans les mesures de séparation, par exemple, la séparation Euclédienne, Manhattan, Minkowski ou Hamming.

La densité relative des données : C’est ce qu’on appelle aussi le facteur d’exception de proximité (LOF). Cette idée dépend d’une métrique de séparation appelée séparation d’accessibilité.

Lieu de l’étrangeté basée sur le regroupement

Le Bunching est l’une des idées les plus répandues dans le domaine de l’apprentissage autonome.

Suspicion : Les informations indiquent que les comparaisons ont tendance à avoir une place avec des rassemblements ou des grappes comparatives, comme dicté par leurs bonnes manières des centroïdes voisins.

Le K-implies est un calcul de regroupement généralement utilisé. Il permet d’obtenir “k” groupes d’informations comparables. Les informations qui ne font pas partie de ces groupes peuvent être considérées comme des incohérences.

Découverte d’anomalies basées sur des machines à vecteurs de soutien

Une machine à vecteurs-soutiens est une autre méthode convaincante pour distinguer les anomalies. Un SVM est normalement connecté à l’adaptation gérée, mais il existe des extensions (OneClassCVM, par exemple) qui peuvent être utilisées pour reconnaître les irrégularités comme une question non assistée (dans laquelle la préparation des informations n’est pas nommée). Le calcul apprend une limite délicate afin de regrouper les occurrences d’informations ordinaires en utilisant l’ensemble de préparation, et ensuite, en utilisant l’occasion de test, il s’accorde pour distinguer les variations de la norme qui ne relèvent pas du domaine académique.

En fonction du cas d’utilisation, le rendement d’un identificateur d’irrégularité pourrait être des estimations scalaires numériques pour le criblage sur des limites explicites de zone ou des marques littéraires, (par exemple, des noms doubles/multiples).

Mise en place d’un dispositif de reconnaissance simple utilisant un canal passe-bas

Dans ce segment, nous nous concentrerons sur la construction d’un ensemble de localisation d’incohérence simple en utilisant la normale mobile pour reconnaître les anomalies dans le nombre de taches solaires chaque mois dans un exemple de jeu de données, qui peut être téléchargé ici en utilisant l’ordre d’accompagnement :

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

Le dossier compte 3 143 lignes, qui contiennent des données sur les taches solaires recueillies entre les années 1749 et 1984. Les taches solaires sont caractérisées comme des taches sombres à l’extérieur du soleil. L’étude des taches solaires aide les chercheurs à comprendre les propriétés du soleil sur une certaine période de temps ; plus précisément, ses propriétés attractives…

Moyenne mobile utilisant une convolution linéaire discrète

La convolution est une activité scientifique qui s’effectue sur deux capacités pour aboutir à une troisième capacité. Scientifiquement, elle pourrait être décrite comme l’indispensable du résultat de deux capacités, après que l’une d’entre elles ait été retournée et déplacée : $f*g(t)$ = $\int_{-\infty}^{\infty} f(T)*g(t-T) dT$, où f(T) est une capacité d’information contenant la quantité d’intrigue (par exemple, le comptage des taches solaires au temps T). g(t – T) est la capacité de pondération déplacée d’une somme t. Selon ces lignes, au fur et à mesure que t change, diverses charges sont attribuées à l’œuvre d’information f(T). Dans notre cas, f(T) correspond au nombre de taches solaires au temps T. g(t – T) est le nombre normal de mouvements.

de __futur__ division des importations

de itertools import izip, count

importer matplotlib.pyplot en tant que plt

à partir de numpy import linspace, loadtxt, ones, convolve

import numpy as np

importer des pandas en tant que pd

collections d’importation

de l’importation aléatoire randint

du style d’importation matplotlib

style.use(“fivethirtyeight”)

%matplotlib inline

# 1. Télécharger l’ensemble de données sur les taches solaires et le télécharger dans le répertoire de l’ensemble de données

# Chargez l’ensemble des données sur les taches solaires sous forme de tableau

!mkdir -p dataset

!wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P dataset

data = loadtxt(“dataset/sunspots.txt”, float)

# 2. Voir les données sous forme de tableau

data_as_frame = pd.DataFrame(data, columns=[‘Months’, ‘SunSpots’])

data_as_frame.head()