La detección de anomalías es una estrategia utilizada para reconocer ejemplos extraños que no encajan con la conducta anticipada, llamados anomalías. Tiene numerosas aplicaciones en el mundo de los negocios, desde el reconocimiento de interrupciones (reconocer ejemplos anormales en el tráfico del sistema que podrían marcar un hack) hasta la observación del bienestar del marco (detectar un tumor peligroso en un filtro de rayos X), y desde la identificación de extorsiones en los intercambios de Visa hasta la localización de culpables en situaciones de trabajo.

Este diagrama abarcará algunas estrategias para reconocer las anomalías, así como la forma de fabricar un identificador en Python utilizando el canal normal móvil básico (SMA) o el canal de paso bajo.

¿Qué son las peculiaridades?

Antes de comenzar, es imperativo establecer ciertos límites en el significado de una rareza. Las anomalías pueden ser clasificadas extensamente como:

Señala las inconsistencias: Un ejemplo solitario de información es extraño si está excesivamente lejos del resto. Caso de uso comercial: Distinguir la extorsión de la Visa dependiendo de la “suma gastada”.

Rarezas relevantes: La anomalía se establece de forma explícita. Este tipo de rareza es básica en la información de los arreglos temporales. Caso de uso comercial: Quemar 100 dólares en comida de forma consistente durante la temporada de Navidad es normal, pero puede ser extraño en general.

Agrega peculiaridades: Muchos ejemplos de información, en general, ayudan a reconocer las irregularidades. Caso de uso comercial: Alguien está tratando de duplicar la estructura de la información de una máquina remota a un host cercano de la nada, una peculiaridad que sería aclamada como un potencial asalto digital.

La identificación de la peculiaridad es como – aunque no tanto como – la expulsión del clamor y el descubrimiento de la rareza. La identificación de la curiosidad se preocupa por reconocer un ejemplo en secreto en las nuevas percepciones excluidas en la preparación de la información – como un inesperado entusiasmo por otro canal en YouTube durante la Navidad, por ejemplo. La evacuación por conmoción (NR) es el camino para vacunar el examen del evento de percepciones indeseables; al final del día, expulsar el clamor de una señal generalmente importante.

Procedimientos de localización de anormalidades

Técnicas de hechos sencillos

La forma más fácil de tratar con las anormalidades distintivas en la información es señalar los focos de información que se desvían de las propiedades básicas medibles de la circulación, incluyendo la media, la media, el modo y los cuantiles. Supongamos que el significado de un punto de información irregular es uno que se desvía por una desviación estándar específica de la media. Navegar significa que después de un tiempo la información no es realmente sin importancia, ya que no es estática. Se necesitaría una ventana móvil para procesar lo normal sobre los focos de información. En realidad, esto se conoce como normal móvil o normal móvil, y se propone suavizar las variaciones transitorias y presentar las de largo recorrido. Numéricamente, un período de normal móvil directo puede ser caracterizado como un “canal de paso bajo”.

Metodologías basadas en la IA

A continuación se presenta un esbozo conciso de los principales procedimientos basados en la IA para la identificación de anomalías.

Detección de anomalías basadas en la densidad

La detección de anomalías basada en la densidad se basa en el algoritmo de los vecinos más cercanos.

Suposición: Los típicos focos de información ocurren alrededor de un vecindario espeso y las variaciones de la norma están muy lejos.

La disposición más cercana de los focos de información se evalúa utilizando una puntuación, que podría ser una separación euclidiana o una medida comparable sujeta al tipo de información (completa o numérica). Se podrían organizar de forma exhaustiva en dos cálculos:

Vecino más cercano: k-NN es un método básico, no paramétrico de aprendizaje lento, utilizado para ordenar la información dependiente de las similitudes en las mediciones de separación, por ejemplo, la separación de Euclides, Manhattan, Minkowski o Hamming.

La densidad relativa de los datos: Esto también se llama factor de excepción cercano (LOF). Esta idea depende de una métrica de separación llamada separación de accesibilidad.

La localización de la rareza basada en la agrupación

La agrupación es una de las ideas más prevalentes en el área del aprendizaje sin ayuda.

Sospecha: La información indica que son comparativas tienden a tener un lugar con las reuniones o racimos comparativos, como lo dictan sus buenas maneras de los centros cercanos.

K-implies es un cálculo de agrupamiento generalmente utilizado. Hace que “k” grupos comparables de focos de información. Las ocurrencias de información que caen fuera de estas agrupaciones pueden ser apartadas como inconsistencias.

Descubrimiento de anormalidad basada en máquinas de vectores de refuerzo

Una máquina de vectorización de refuerzo es otro método convincente para distinguir las anormalidades. Una SVM normalmente está conectada con la adaptación gestionada, pero hay expansiones (OneClassCVM, por ejemplo) que pueden ser utilizadas para reconocer irregularidades como una cuestión sin ayuda (en la que no se nombra la información de preparación). El cálculo aprende un límite delicado para agrupar las ocurrencias ordinarias de información utilizando el conjunto de preparación, y después, utilizando la ocasión de la prueba, se afina para distinguir las variaciones de la norma que caen fuera del área académica.

Según el caso de utilización, el rendimiento de un identificador de irregularidades podría ser estimaciones numéricas escalares para cribar en límites explícitos de área o marcas literarias, (por ejemplo, nombres dobles/múltiples).

Construyendo un acuerdo de reconocimiento directo utilizando un canal de paso bajo

En este segmento, nos concentraremos en la construcción de un paquete de localización de inconsistencia directa utilizando la normalidad en movimiento para reconocer anormalidades en el número de manchas solares cada mes en un ejemplo de conjunto de datos, que puede ser descargado aquí utilizando el orden que lo acompaña:

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

El registro tiene 3.143 líneas, que contienen datos sobre las manchas solares recogidas entre los años 1749-1984. Las manchas solares se caracterizan como manchas oscuras en el exterior del sol. La investigación de las manchas solares ayuda a los investigadores a comprender las propiedades del sol durante algún tiempo; específicamente, sus atractivas propiedades…

Promedio móvil utilizando la convolución lineal discreta

La convolución es una actividad científica que se realiza en dos capacidades para ofrecer una tercera capacidad. Científicamente, podría describirse como lo indispensable del resultado de dos capacidades, después de que una se da la vuelta y se mueve: $f*g(t)$ = $\int_{-\infty}^{\infty} f(T)*g(t-T) dT$, donde f(T) es una capacidad de información que contiene la cantidad de intriga (por ejemplo, el recuento de manchas solares en el tiempo T). g(t – T) es la capacidad de ponderación movida por una suma t. A lo largo de estas líneas, a medida que t cambia, varias cargas se reparten al trabajo de información f(T). Para nuestra situación, f(T) habla de los recuentos de manchas solares en el tiempo T. g(t – T) es la parte normal en movimiento.

de la __futura__ división de importación

de las herramientas de importación izip, cuenta

importar matplotlib.pyplot como plt

de la importación numérica del espacio de línea, loadtxt, ones, convoluciona

importar numpy como np

importar pandas como pd

colecciones de importación

de la importación aleatoria de randint

del estilo de importación matplotlib

style.use(‘fivethirtyeight’)

%matplotlib en línea

# 1. Descargar el conjunto de datos de las manchas solares y subir el mismo al directorio de conjuntos de datos

# Cargar el conjunto de datos de las manchas solares como una matriz

! mkdir -p dataset

! wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P dataset

data = loadtxt(“dataset/sunspots.txt”, float)

# 2. Ver los datos como una tabla

data_as_frame = pd.DataFrame(data, columns=[‘Meses’, ‘Manchas Solares’])

data_as_frame.head()