Anomaliedetectie is een strategie die wordt gebruikt om vreemde voorbeelden te herkennen die niet passen bij het verwachte gedrag, de zogenaamde anomalieën. Het heeft talrijke toepassingen in het bedrijfsleven, van de herkenning van onderbrekingen (het herkennen van abnormale voorbeelden in het systeemverkeer die een hack zouden kunnen markeren) tot het observeren van het kader van het welzijn (het detecteren van een gevaarlijke tumor in een röntgenfilter), en van de identificatie van afpersing in Visa-uitwisselingen tot de locatie van de schuldige in werksituaties.

Dit diagram zal een aantal strategieën voor het herkennen van afwijkingen behandelen, net zoals het maken van een identificator in Python met behulp van basic moving normal (SMA) of low-pass kanaal.

Wat zijn de bijzonderheden?

Vooraleer te beginnen, is het noodzakelijk om bepaalde grenzen op te leggen aan de betekenis van een vreemdheid. Afwijkingen kunnen uitgebreid worden gesorteerd als:

Puntonregelmatigheden: Een eenzaam voorbeeld van informatie is vreemd als het te ver weg is van de rest. Zakelijk gebruik: Onderscheidende visumafschaffing afhankelijk van “uitgegeven bedrag.”

Relevante rariteiten: De anomalie stelt zich expliciet. Dit soort rariteiten is fundamenteel in de informatie over de tijdsschema’s. Zakelijke use case: Het consequent doorbranden van $100 aan voeding tijdens het kerstseizoen is gewoon, maar kan over het algemeen vreemd zijn.

Geaggregeerde eigenaardigheden: Een heleboel informatie voorbeelden, over het algemeen, helpt bij het herkennen van onregelmatigheden. Zakelijke use case: Iemand probeert de informatiestructuur van een machine op afstand te dupliceren naar een nabijgelegen gastheer uit het niets, een eigenaardigheid die als een potentiële digitale aanval zou worden toegejuicht.

De identificatie van de eigenaardigheden is als – maar niet zozeer als – de uitzetting van het geraas en de ontdekking van rariteiten. Nieuwsgierigheidsidentificatie maakt zich zorgen over het herkennen van een geheim voorbeeld in nieuwe percepties die worden uitgesloten bij de voorbereiding van informatie – zoals een onverwacht enthousiasme voor een ander kanaal op YouTube tijdens de kerst, bijvoorbeeld. Commotion evacuation (NR) is de weg naar het vaccineren van onderzoek van de gebeurtenis van ongewenste waarnemingen; aan het eind van de dag, het verdrijven van clamor van een over het algemeen belangrijk teken.

Abnormaliteit Locatieprocedures

Ongecompliceerd Feitelijke technieken

De eenvoudigste manier om om te gaan met het onderscheiden van afwijkingen in de informatie is om de informatie te signaleren die afwijkt van de meetbare basiseigenschappen van de bloedsomloop, met inbegrip van het gemiddelde, het midden, de modus en de kwantels. Veronderstel dat de betekenis van een onregelmatig informatiepunt er een is die afdwalen door een specifieke standaardafwijking van het gemiddelde. Navigeren betekent dat informatie na enige tijd rangschikken niet echt onbelangrijk is, omdat het niet statisch is. U zou een bewegend venster nodig hebben om het normale over de informatie te verwerken. Eigenlijk staat dit bekend als een bewegende normaal of een bewegende normaal, en het wordt voorgesteld om voorbijgaande variaties glad te strijken en te voorzien van lange afstanden. Numeriek gezien, kan een bewegende normaal ook gekarakteriseerd worden als een “laagdoorlaatbaar kanaal”.

AI-gebaseerde methoden

Hieronder volgt een beknopt overzicht van prominente op AI gebaseerde procedures voor de identificatie van afwijkingen.

Dichtheidsgerichte anomalie-detectie

De op dichtheid gebaseerde anomaliedetectie is gebaseerd op het k-neareste-buren-algoritme.

Veronderstelling: Typische informatie is gericht op een dikke buurt en variaties op de norm zijn ver weg.

De dichtstbijzijnde rangschikking van de informatie wordt beoordeeld aan de hand van een score, die Eucledische scheiding kan zijn of een vergelijkbare maatregel, afhankelijk van de aard van de informatie (all-out of numeriek). Ze kunnen uitgebreid worden gerangschikt in twee berekeningen:

K-dichtste buurman: k-NN is een eenvoudige, niet-parametrische trage leermethode die wordt gebruikt om informatie te regelen die afhankelijk is van similitudes in scheidingsmetingen, bijvoorbeeld Eucledian, Manhattan, Minkowski, of Hamming scheiding.

De relatieve dichtheid van de gegevens: Dit wordt ook wel de nabijgelegen uitzonderingsfactor (LOF) genoemd. Dit idee is afhankelijk van een scheidingsmethodiek die reachability separation wordt genoemd.

Bunching Based Oddity Location

Bunching is een van de meest voorkomende ideeën op het gebied van zelfstandig leren.

Verdenking: Informatie geeft aan dat zijn vergelijkende neiging hebben een plaats met vergelijkende bijeenkomsten of trossen, zoals gedicteerd door hun goede manieren van de nabijgelegen centroïden.

K-implicies is een algemeen gebruikte bundelberekening. Het maakt ‘k’ tot vergelijkbare groepen van informatie. Informatievoorvallen die buiten deze bijeenkomsten vallen, kunnen als inconsistenties worden onderscheiden.

Bolster Vector Machinaal Gebaseerde Abnormaliteit Ontdekking

Een bolster vector machine is een andere dwingende methode om afwijkingen te onderscheiden. Een SVM is normaal gesproken verbonden met managed adapting, maar er zijn uitbreidingen (bijvoorbeeld OneClassCVM) die gebruikt kunnen worden om onregelmatigheden als een zelfstandig probleem te herkennen (waarbij het voorbereiden van informatie niet wordt genoemd). De berekening leert een delicate limiet om de gewone informatievoorvallen te bundelen met behulp van de voorbereidingsset, en daarna, met behulp van de testgelegenheid, stemt het zichzelf af om de variaties van de norm te onderscheiden die buiten het wetenschappelijke gebied vallen.

Afhankelijk van het geval van gebruik kan de opbrengst van een onregelmatigheidsidentificatie een numerieke scalaire waardering zijn voor het zeven van expliciete gebiedsgrenzen of literaire tekens (bijvoorbeeld tweevoudige/multi-namen).

Het bouwen van een eenvoudige herkenningsregeling met behulp van een Low-Pass Channel

In dit segment zullen we ons concentreren op het bouwen van een eenvoudige inconsistente locatiebundel door gebruik te maken van het normale bewegen om afwijkingen in het aantal zonnevlekken per maand te herkennen in een voorbeelddataset, die hier kan worden gedownload met behulp van de bijbehorende volgorde:

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

Het record heeft 3.143 lijnen, die gegevens bevatten over zonnevlekken verzameld tussen de jaren 1749-1984. Zonnevlekken worden gekarakteriseerd als zwakke plekken aan de buitenkant van de zon. Het onderzoek naar zonnevlekken helpt onderzoekers om de eigenschappen van de zon over een bepaalde periode te begrijpen; met name de aantrekkelijke eigenschappen…

Bewegend gemiddelde met behulp van Discrete Lineaire Convolutie

Convolutie is een wetenschappelijke activiteit die wordt uitgevoerd op twee capaciteiten om een derde capaciteit te leveren. Wetenschappelijk zou het kunnen worden afgeschilderd als het onmisbare resultaat van twee capaciteiten, nadat er één is omgedraaid en verplaatst: $f*g(t)$ = $\infty}^{\infty} f(T)*g(t-T) dT$, waarbij f(T) een informatiecapaciteit is die de hoeveelheid intrige bevat (bijvoorbeeld zonnevlektelling op tijdstip T). g(t – T) is de wegingscapaciteit die wordt bewogen door een som t. Langs deze lijnen worden, naarmate t verandert, verschillende ladingen naar het infowerk f(T) gedolven. Voor onze situatie spreekt f(T) tot de zonnevlektelling op tijdstip T. g(t – T) is het bewegende normale bit.

van __future__ importdivisie

uit itertools importeren izip, tellen

import matplotlib.pyplot als plt

uit numpy import linspace, loadtxt, degenen, convolve

importnummer als np

importpanda’s als pd

importcollecties

van willekeurige invoer randint

van matplotlib-importstijl

style.use(‘vijfendertig uur’)

%matplotlib inline

# 1. Download sunspot dataset en upload deze naar de dataset directory

# Laad de zonnevlek dataset als een Array

mkdir -p dataset

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P dataset

data = loadtxt (“dataset/sunspots.txt”, float)

# 2. Bekijk de gegevens als een tabel

data_as_frame = pd.DataFrame(data, kolommen=[‘Maanden’, ‘SunSpots’])

data_as_frame.head()