Обнаружение аномалий – это стратегия, используемая для распознавания странных примеров, которые не вписываются в предполагаемое поведение, называемое аномалией. Она имеет множество приложений в бизнесе, от распознавания прерываний (распознавание аномальных примеров в системном трафике, которые могут помешать взлому) до наблюдения за благосостоянием фреймворка (обнаружение опасной опухоли в рентгеновском фильтре), и от распознавания вымогательства при обмене Visa до определения местоположения вины в рабочих ситуациях.

На этой диаграмме будут рассмотрены несколько стратегий распознавания аномалий, так же как и изготовление идентификатора на Python с использованием основного канала скользящего нормального (SMA) или низкочастотного канала.

Что такое “Особенности”?

Прежде чем начать, необходимо выстроить определенные ограничения на значение странности. Нормальности могут быть широко отсортированы:

Точка несоответствия: Уединенный пример информации странный, если он слишком далеко от остальных. Пример использования в бизнесе: Различение вымогательства визы в зависимости от “потраченной суммы”.

Соответствующие странности: Аномалия устанавливается в явном виде. Этот вид странностей является основным в информации о распределении времени. Случай использования в бизнесе: Питание в рождественское время на сумму 100 долларов является обычным, но в целом может быть странным.

Совокупность особенностей: Множество информационных примеров, в целом, помогает в выявлении нарушений. Практический пример использования в бизнесе: Кто-то ни с того ни с сего пытается скопировать информацию, структурировав удаленную машину на соседнего хозяина – особенность, которую можно было бы назвать потенциальной цифровой атакой.

Идентификация особенностей похожа – но не столько эквивалентна – на изгнание шума и обнаружение странностей. Идентификация любопытства беспокоит распознавание тайного примера в новых восприятиях, исключенных при подготовке информации – как, например, неожиданный энтузиазм в отношении другого канала на YouTube во время Рождества. Эвакуация волнений (NR) – это путь к вакцинации обследования от нежелательного восприятия; в конце концов, изгнание шума от общеизвестного знака.

Процедуры определения местоположения аномалий

Прямые фактологические методы

Самый простой способ справиться с отличительными аномалиями в информации – это сигнализировать о фокусе информации, который отходит от основных измеряемых свойств циркуляции, включая средние, средние, моды и квантиль. Предположим, что значение нерегулярного информационного пункта – это такой пункт, который отклоняется от среднего на определенное стандартное отклонение. Навигационные средства после некоторого времени расположения информация на самом деле не является несущественной, так как она не является статической. Вам понадобится движущееся окно, чтобы обработать нормальное над информационным фокусом. На самом деле, это называется движущейся нормой или движущейся нормой, и предлагается сгладить переходные отклонения и использовать длинные отклонения. В числовом выражении прямую движущуюся нормаль можно также охарактеризовать как “канал низкого прохода”.

Методологии, основанные на ИИ

Ниже приводится краткое описание известных процедур идентификации аномалий на основе искусственного осеменения.

Обнаружение аномалий на основе плотности

Обнаружение аномалии на основе плотности основано на алгоритме k-ближайших соседей.

Предположение: Типичные фокусы информации происходят вокруг толстого района, а отклонения от нормы находятся далеко.

Наиболее близкое расположение информационных фокусов оценивается с использованием баллов, которые могут быть евкледийскими разделениями или сопоставимой мерой, зависящей от вида информации (полной или числовой). Они могут быть полностью разбиты на два расчета:

K-ближайший сосед: k-NN – это основной, непараметрический вялотекущий метод обучения, используемый для организации информации, зависящей от сходства в измерениях разделения, например, евклидовского, манхэттенского, минковского или гамминговского разделения.

Относительная плотность данных: Это также называется коэффициентом близкого исключения (LOF). Эта идея зависит от метрики разделения, называемой разделение достижимости.

Местоположение на основе странностей

Сбивание с толку – одна из наиболее распространенных идей в области обучения без посторонней помощи.

Подозрение: Информация указывает на то, что сравнительные тенденции имеют место с сравнительными сборами или пучками, как продиктовано их хорошими способами из близлежащих центроидов.

K-implies – это обычно используемый расчет группировки. Он делает ‘k’ сопоставимыми группами фокусировки информации. Случаи информации, которые выходят за рамки этих сборок, могут быть разделены как несоответствия.

Обнаружение аномалий на основе векторной машины Болстера

Еще одним привлекательным методом для выявления аномалий является машина с поперечным вектором. Обычно SVM связана с управляемой адаптацией, однако существуют расширения (например, OneClassCVM), которые могут быть использованы для распознавания отклонений как самостоятельной проблемы (в которых подготовительная информация не называется). Расчет учитывает деликатный предел, чтобы сгруппировать обычные случаи информации с использованием подготовительного набора, а затем, используя тестовый случай, он настраивает себя, чтобы отличить вариации от нормы, которые выходят за рамки научной области.

Исходя из случая применения, выходом идентификатора нерегулярности могли бы быть числовые скалярные оценки для просеивания на явных границах области или литературные знаки (напр., двукратные/многократные названия).

Построение механизма прямого распознавания с использованием низкочастотного канала.

В этом сегменте, мы сконцентрируемся на построении пакета прямого несоответствия местоположения, используя перемещение нормального для распознавания аномалий в количестве солнечных пятен каждый месяц в примере набора данных, который можно скачать здесь, используя сопровождающий заказ:

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

Рекорд насчитывает 3143 строки, которые содержат данные о солнечных пятнах, собранные в период 1749-1984 годов. Солнечные пятна характеризуются как тусклые пятна на внешней стороне солнца. Исследование пятен помогает исследователям понять свойства Солнца на определенном отрезке времени; в частности, его привлекательные свойства….

Скользящее среднее с использованием дискретной линейной конвекции

Конволюция – это научная деятельность, которая осуществляется на двух мощностях для обеспечения третьей. С научной точки зрения ее можно представить как незаменимый результат двух способностей, после того, как одна из них повернута и перемещена: $f*g(t)$ = $nt_{-nfty}^{nfty} f(T)*g(t-T) dT$, где f(T) – это информационная способность, содержащая количество интриг (например, подсчитывание солнечного пятна в момент времени T). g(t – T) – это взвешивающая способность, сдвинутая на сумму t. По мере изменения t в информационную работу f(T) включаются различные нагрузки. Для нашей ситуации, f(T) говорит с подсчетом солнечных пятен в момент, когда T. g(t – T) является движущимся нормальным битом.

из отдела импорта __future__

из итертуалов импортируют изип, считай.

импорт matplotlib.pyplot как plt

из numpy import linspace, loadtxt, ones, convolve

импорт онемелый как пшт

импортировать панд в виде pd

импортные коллекции

от случайного импорта рандинта

импортный стиль матплотлибов

style. use(‘fivethirtyeight’)

%матплотлиб в линии

# 1. Загрузите набор данных о солнечных пятнах и загрузите то же самое в каталог набора данных.

# Загрузите набор данных о солнечных пятнах, как массив.

! набор данных mkdir -p

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P набор данных

data = loadtxt(“dataset/sunspots.txt”, float)

# 2. Просмотреть данные в виде таблицы

data_as_frame = pd.DataFrame(data, columns=[‘Месяцы’, ‘Пятна солнца’]))

data_as_frame.head()