Wykrywanie anomalii to strategia używana do rozpoznawania dziwnych przykładów, które nie pasują do przewidywanego zachowania, zwanych anomaliami. Ma ona wiele zastosowań w biznesie, od rozpoznawania przerw w pracy (rozpoznawanie nietypowych przykładów w ruchu systemowym, które mogą oznaczać włamanie) do ramowego obserwowania dobrego samopoczucia (wykrywanie niebezpiecznego guza w filtrze rentgenowskim) i od identyfikacji wymuszeń w centralach wizowych do lokalizacji winnych sytuacji w pracy.

Ten diagram obejmie kilka strategii rozpoznawania nieprawidłowości, podobnie jak sposób wytwarzania identyfikatora w Pythonie z wykorzystaniem podstawowego ruchomego kanału normalnego (SMA) lub kanału dolnoprzepustowego.

Czym są osobliwości?

Przed rozpoczęciem, konieczne jest zbudowanie pewnych ograniczeń dotyczących znaczenia dziwaka. Nieprawidłowości mogą być obszernie sortowane jako:

Niespójności punktowe: Samotny przykład informacji jest dziwny, jeśli jest zbyt daleko od reszty. Przypadek wykorzystania w biznesie: Wyodrębnienie wymuszeń wizowych zależnych od “wydanej sumy”.

Istotne dziwactwa: Anomalia jest ustawiona wyraźnie. Ten rodzaj dziwaczności jest podstawową informacją w układzie czasowym. Przypadek wykorzystania biznesowego: Spalanie przez 100$ na pożywieniu konsekwentnie w okresie Bożego Narodzenia jest zwyczajne, ale może być dziwne ogólnie.

Zagregowane osobliwości: Wiele przykładów informacji, ogólnie rzecz biorąc, pomaga w rozpoznawaniu nieprawidłowości. Przypadek użycia w biznesie: Ktoś próbuje zduplikować strukturę informacyjną zdalnej maszyny do pobliskiego gospodarza, co jest osobliwością, która zostałaby uznana za potencjalny atak cyfrowy.

Identyfikacja osobliwości jest jak – choć nie aż tak bardzo równoznaczna z krzykliwym wydaleniem i odkryciem osobliwości. Identyfikacja osobliwości obawia się rozpoznania w ukryciu przykładu w nowych postrzeganiach wykluczonych przy przygotowywaniu informacji – jak na przykład nieoczekiwany entuzjazm dla innego kanału na YouTube w okresie Bożego Narodzenia. Ewakuacja zamieszania (NR) jest drogą do zaszczepienia badania od zdarzenia niepożądanych postrzegań; na koniec dnia, wydalenie krzyk z ogólnie ważnym znakiem.

Procedury lokalizacji anomalii

Proste techniki faktyczne

Najłatwiejszym sposobem radzenia sobie z rozróżnieniem nieprawidłowości w informacji jest sygnalizowanie ognisk informacji, które odbiegają od podstawowych mierzalnych właściwości cyrkulacji, w tym średnich, środkowych, trybów i kwantyliów. Załóżmy, że znaczeniem nieregularnego punktu informacyjnego jest taki, który dygresje o określone odchylenie standardowe od średniej. Nawigacja oznacza, że po pewnym czasie informacja o układzie czasowym nie jest właściwie nieistotna, ponieważ nie jest statyczna. Potrzebne byłoby ruchome okno, aby przetworzyć normalną informację nad ogniskami informacji. Faktycznie, jest to znane jako ruchome normalne lub ruchome normalne, i jest to proponowane, aby wygładzić przejściowe odchylenia i charakteryzują się długimi przebiegami. Numerycznie, zwykły ruchomy normalny może być również określony jako “kanał dolnoprzepustowy”.

Metodologie oparte na AI

Poniżej znajduje się zwięzły zarys najważniejszych procedur identyfikacji nieprawidłowości opartych na sztucznej inteligencji.

Wykrywanie anomalii w oparciu o gęstość

Wykrywanie anomalii na podstawie gęstości jest oparte na algorytmie k-nearest sąsiadów.

Założenie: Typowe informacje koncentrują się wokół gęstego sąsiedztwa, a odchylenia od normy są dalekie.

Najściślejszy układ ognisk informacji jest oceniany przy użyciu punktacji, którą może być separacja Eucledian lub porównywalna miara zależna od rodzaju informacji (całkowita lub liczbowa). Można je kompleksowo ułożyć w dwie kalkulacje:

K-najbliższy sąsiad: k-NN jest podstawową, nieparametryczną, powolną metodą uczenia się, wykorzystywaną do uporządkowania informacji w zależności od symilacji w pomiarach separacji, na przykład separacji Eucledian, Manhattan, Minkowski lub Hamming.

Gęstość względna danych: Jest to również nazywane współczynnikiem bliskości geograficznej (LOF). Pojęcie to zależy od separacji metrycznej zwanej separacją osiągalności.

Bunching Based Oddity Location

Bunching jest jednym z najbardziej rozpowszechnionych pomysłów w dziedzinie samodzielnej nauki.

Podejrzenie: Informacje wskazują, że są tendencje porównawcze mają miejsce z porównawczych zgromadzeń lub pęczki, jak dyktowane przez ich dobre drogi z pobliskich centroidów.

K-implies jest powszechnie stosowanym sposobem obliczania wiązek. Sprawia ona, że “k” porównywalne grupy informacji skupiają się. Występowanie informacji, które nie mieszczą się w tych skupiskach, może być wyróżnione jako niespójność.

Odkrycie anomalii wektorowej opartej na maszynie Bolster Vector.

Maszyna wektorowa typu bolster jest kolejną przekonywującą metodą rozróżniania nieprawidłowości. SVM jest zwykle połączona z kontrolowaną adaptacją, ale istnieją rozszerzenia (na przykład OneClassCVM), które mogą być wykorzystane do rozpoznania nieprawidłowości jako samodzielnego problemu (w którym przygotowanie informacji nie jest nazwane). Obliczenia uczą się delikatnej granicy, tak aby zgrać zwykłe zdarzenia informacyjne z wykorzystaniem zestawu przygotowawczego, a następnie, wykorzystując okazję do testowania, dostrajają się, aby odróżnić odchylenia od normy, które wykraczają poza obszar naukowy.

W zależności od przypadku zastosowania, źródłem identyfikatora nieregularności mogą być liczbowe szacunki skalarne dla przesiewania na wyraźnych granicach obszaru lub znaków literackich (np. dwie/wiele nazw).

Budowa układu prostego rozpoznawania Wykorzystując kanał dolnoprzepustowy

W tym segmencie skoncentrujemy się na zbudowaniu prostego, niespójnego pakietu lokalizacyjnego wykorzystującego ruch normalny w celu rozpoznania anomalii w liczbie plam słonecznych każdego miesiąca w przykładowym zbiorze danych, który można pobrać tutaj korzystając z załączonego zamówienia:

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

Rekord ma 3 143 linie, które zawierają dane o plamach słonecznych zebranych w latach 1749-1984. Pędy słoneczne są scharakteryzowane jako ciemne plamy na zewnętrznej stronie słońca. Badanie plam słonecznych pomaga naukowcom zrozumieć właściwości Słońca na przestrzeni pewnego okresu czasu, a w szczególności jego atrakcyjne właściwości…

Średnia ruchoma przy użyciu dyskretnej konwekcji liniowej

Convolution jest działalnością naukową, która jest wykonywana na dwóch zdolnościach, aby dostarczyć trzecią zdolność. Naukowo można by ją przedstawić jako nieodzowny wynik dwóch zdolności, po obróceniu i przemieszczeniu jednej z nich: $f*g(t)$ = $int_{-\i0}^{\i0} f(T)*g(t-T) dT$, gdzie f(T) jest zdolnością informacyjną zawierającą ilość intryg (np. plamka słoneczna tally w czasie T). g(t – T) jest pojemnością informacyjną przenoszoną o sumę t. Wzdłuż tych linii, gdy t się zmienia, do pracy informacyjnej f(T) są wyprowadzane różne obciążenia. Dla naszej sytuacji, f(T) mówi do plamki słonecznej w czasie T. g(t – T) jest ruchomym bitem normalnym.

z __przyszłego działu importu

z itertools import izip, count

import matplotlib.pyplot jako plt

z numpy import linspace, loadtxt, ones, convolve

importować zdrętwiały jak np.

import pand jako pd

kolekcje importowe

z wyrywkowego przywozu randintu

od stylu importowego matplotlib

style.use(“fivethirtyeight”)

%matplotlib inline

# 1. Pobierz zbiór danych sunspot i wrzuć go do katalogu zbiorów danych

# Load the sunspot dataset as an Array

!mkdir -p dataset

!wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P dataset

data = loadtxt(“dataset/sunspots.txt”, float)

# 2. Wyświetl dane w formie tabeli

data_as_frame = pd.DataFrame(data, columns=[‘Months’, ‘SunSpots’])

data_as_frame.head()