Anomalie-Erkennung ist eine Strategie zur Erkennung seltsamer Beispiele, die nicht in das erwartete Verhalten passen, Anomalien genannt. Sie hat zahlreiche Anwendungen im Geschäftsleben, von der Erkennung von Unterbrechungen (Erkennen von anomalen Beispielen im Systemverkehr, die einen Hack markieren könnten) bis hin zur Beobachtung des Wohlbefindens (Erkennen eines gefährlichen Tumors in einem Röntgenfilter) und von der Erkennung von Erpressung bei Visa-Austausch bis hin zur Schuldzuweisung in Arbeitssituationen.

In diesem Diagramm werden einige Strategien zur Erkennung von Anomalien behandelt, ebenso wie die Herstellung eines Identifizierers in Python unter Verwendung des Basic Moving Normal (SMA) oder Tiefpasskanals.

Was sind Eigentümlichkeiten?

Bevor man damit beginnt, ist es unerlässlich, der Bedeutung einer Kuriosität gewisse Grenzen zu setzen. Auffälligkeiten können umfassend sortiert werden als:

Punktuelle Inkonsistenzen: Ein einzelnes Beispiel für eine Information ist merkwürdig, wenn sie übermäßig weit vom Rest entfernt ist. Geschäftlicher Anwendungsfall: Unterscheidung von Visa-Erpressung in Abhängigkeit von “ausgegebener Summe”.

Relevante Kuriositäten: Die Anomalie ist explizit gesetzt. Diese Art von Seltsamkeit ist grundlegend für die Information über die Zeitanordnung. Geschäftlicher Anwendungsfall: Das konsequente Durchbrennen von $100 für Nahrungsmittel während der Weihnachtszeit ist normal, kann aber generell seltsam sein.

Aggregierte Eigenheiten: Viele Informationsbeispiele helfen im Großen und Ganzen, Unregelmäßigkeiten zu erkennen. Geschäftlicher Anwendungsfall: Jemand versucht aus heiterem Himmel, die Informationsstruktur eines entfernten Rechners auf einen nahe gelegenen Host zu duplizieren, eine Eigenheit, die als möglicher digitaler Angriff gepriesen würde.

Die Identifizierung einer Besonderheit ist wie – aber nicht so sehr gleichbedeutend mit – lautstarker Vertreibung und der Entdeckung von Merkwürdigkeiten. Die Neugier-Identifikation ist besorgt über das Erkennen eines im Verborgenen liegenden Beispiels in neuen Wahrnehmungen, die bei der Aufbereitung von Informationen ausgeschlossen werden – wie z.B. eine unerwartete Begeisterung für einen anderen Kanal auf YouTube zu Weihnachten. Die Bewegungsevakuierung (NR) ist der Weg zur Impfung der Untersuchung vor dem Ereignis unerwünschter Wahrnehmungen; am Ende des Tages wird der Schrei aus einem allgemein wichtigen Zeichen vertrieben.

Verfahren zur Lokalisierung von Anomalien

Unkomplizierte faktische Techniken

Der einfachste Weg, mit der Unterscheidung von Anomalien in der Information umzugehen, besteht darin, die Informationsschwerpunkte zu signalisieren, die von den grundlegenden messbaren Eigenschaften der Zirkulation, einschließlich Mittelwert, Mittelwert, Modus und Quantile, abweichen. Angenommen, die Bedeutung eines unregelmäßigen Informationspunktes ist eine, die um eine bestimmte Standardabweichung vom Mittelwert abweicht. Navigieren bedeutet, dass nach einer gewissen Zeit der Anordnung Informationen eigentlich nicht unwichtig sind, da sie nicht statisch sind. Sie würden ein sich bewegendes Fenster benötigen, um das Normale über die Informationsschwerpunkte zu verarbeiten. Eigentlich ist dies als bewegliche Normale oder bewegliche Normale bekannt, und es wird vorgeschlagen, um vorübergehende Abweichungen zu glätten und Langstreckenabweichungen zu kennzeichnen. Numerisch gesehen kann eine sich geradeaus bewegende Normale einer Periode ebenfalls als “Tiefpasskanal” bezeichnet werden.

KI-basierte Methoden

Im Folgenden werden die wichtigsten KI-basierten Verfahren zur Identifizierung von Anomalien kurz umrissen.

Dichtebasierte Anomalie-Erkennung

Die dichtebasierte Anomalieerkennung basiert auf dem k-nächsten Nachbarn-Algorithmus.

Vermutung: Typische Informationsschwerpunkte finden in einer dichten Nachbarschaft statt und Abweichungen von der Norm sind weit entfernt.

Die engste Anordnung der Informationsschwerpunkte wird mit Hilfe einer Punktzahl bewertet, die je nach Art der Information (all-out oder numerisch) eine euklidische Trennung oder ein vergleichbares Maß sein kann. Sie könnten umfassend in zwei Berechnungen eingeteilt werden:

K-nächster Nachbar: k-NN ist eine grundlegende, nichtparametrische, träge Lernmethode, die verwendet wird, um Informationen in Abhängigkeit von Similituden in Trennmessungen anzuordnen, z.B. Euklidische, Manhattan-, Minkowski- oder Hamming-Trennung.

Die relative Dichte der Daten: Dies wird auch als Nahausnahmefaktor (LOF) bezeichnet. Diese Idee hängt von einer Trennmetrik ab, die als Erreichbarkeitstrennung bezeichnet wird.

Bündelungsbasierte Oddity-Location

Die Bündelung ist eine der am weitesten verbreiteten Ideen im Bereich des ungestützten Lernens.

Verdacht: Informationen deuten darauf hin, dass Vergleichende tendenziell einen Ort mit vergleichenden Versammlungen oder Büscheln haben, wie es durch ihre guten Wege von nahe gelegenen Zentroiden diktiert wird.

K-Implikationen ist eine allgemein verwendete Bündelungsberechnung. Sie macht ‘k’ vergleichbare Gruppen von Informationsschwerpunkten. Informationsvorkommnisse, die außerhalb dieser Sammlungen liegen, können als Inkonsistenzen abgesetzt werden.

Vektorielle maschinengestützte Entdeckung von Anomalien

Eine Kissen-Vektor-Maschine ist eine weitere überzeugende Methode zur Unterscheidung von Anomalien. Eine SVM ist normalerweise mit gemanagter Anpassung verbunden, doch gibt es Erweiterungen (z.B. OneClassCVM), die dazu verwendet werden können, Unregelmäßigkeiten als eigenständiges Problem zu erkennen (bei dem die vorbereitenden Informationen nicht benannt werden). Die Berechnung lernt eine heikle Grenze kennen, um die gewöhnlichen Informationsvorkommnisse unter Verwendung des Vorbereitungssatzes zu bündeln, und danach stimmt sie sich unter Ausnutzung der Testgelegenheit darauf ein, die Abweichungen von der Norm zu unterscheiden, die außerhalb des wissenschaftlichen Bereichs liegen.

Abhängig vom Anwendungsfall könnte die Ausbeute eines Unregelmäßigkeitskennzeichens aus numerischen skalaren Schätzwerten für das Sieben nach expliziten Bereichsgrenzen oder literarischen Markierungen (z.B. Zweifach-/Mehrfachnamen) bestehen.

Aufbau einer unkomplizierten Anerkennungsvereinbarung unter Verwendung eines Tiefpasskanals

In diesem Segment konzentrieren wir uns auf die Erstellung eines einfachen Bündels von Inkonsistenz-Orten unter Verwendung von Moving Normal zur Erkennung von Anomalien in der Anzahl der Sonnenflecken pro Monat in einem Beispieldatensatz, der hier mit der beiliegenden Bestellung heruntergeladen werden kann:

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

Der Datensatz umfasst 3.143 Zeilen, die Daten über Sonnenflecken enthalten, die zwischen den Jahren 1749-1984 gesammelt wurden. Sonnenflecken werden als dunkle Flecken auf der Außenseite der Sonne charakterisiert. Die Untersuchung von Sonnenflecken hilft Forschern, die Eigenschaften der Sonne über einen bestimmten Zeitraum zu verstehen, insbesondere ihre attraktiven Eigenschaften…

Gleitender Durchschnitt unter Verwendung diskreter linearer Faltung

Die Konvolution ist eine wissenschaftliche Tätigkeit, die auf zwei Kapazitäten durchgeführt wird, um eine dritte Kapazität zu liefern. Wissenschaftlich gesehen könnte sie als das unverzichtbare Ergebnis zweier Kapazitäten dargestellt werden, nachdem eine davon gedreht und bewegt wurde: $f*g(t)$ = $\int_{-\infty}^{\infty} f(T)*g(t-T) dT$, wobei f(T) eine Informationskapazität ist, die die Menge an Intrigen enthält (z.B. Sonnenfleckenzählung zum Zeitpunkt T). g(t – T) ist die durch eine Summe t bewegte Wichtungskapazität. Entlang dieser Linien werden bei Änderung von t verschiedene Lasten auf die Informationsarbeit f(T) verteilt. Für unsere Situation spricht f(T) mit den Sonnenfleck-Tallies zur Zeit T. g(t – T) ist das sich bewegende normale Bit.

aus __zukünftiger__ Importabteilung

aus itertools importieren izip, zählen

matplotlib.pyplot als plt importieren

aus numpy importieren linspace, loadtxt, ones, convolve

numpy als np importieren

Pandas als pd importieren

Importsammlungen

aus Zufallsimport-Randint

aus Matplotlib-Importstil

style.use(‘achtundfünfzig’)

%matplotlib inline

# 1. Herunterladen des Sunspot-Datensatzes und Hochladen desselben in das Datensatzverzeichnis

# Laden Sie den Sonnenflecken-Datensatz als Array

! mkdir -p-Datensatz

! wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P-Datensatz

Daten = loadtxt (“dataset/sunspots.txt”, float)

# 2. Anzeigen der Daten als Tabelle

data_as_frame = pd.DataFrame(Daten, Spalten=[‘Monate’, ‘SunSpots’])

daten_wie_frame.kopf()