A Detecção de Anomalias é uma estratégia usada para reconhecer exemplos estranhos que não se encaixam na conduta antecipada, chamada de anomalias. Tem inúmeras aplicações nos negócios, desde o reconhecimento de interrupções (reconhecimento de exemplos anormais no tráfego do sistema que poderiam sinalizar um hack) até a observação do bem-estar da estrutura (detecção de um tumor perigoso em um filtro de raios-X), e desde a identificação de extorsão nas trocas de vistos até a localização da culpa em situações de trabalho.

Este diagrama irá cobrir algumas estratégias para o reconhecimento de anormalidades, assim como a fabricação de um identificador em Python utilizando o canal normal móvel básico (SMA) ou canal de baixa passagem.

O que são Peculiaridades?

Antes de começar, é imperativo construir certos limites sobre o significado de uma estranheza. As anomalias podem ser amplamente classificadas como:

Apontar inconsistências: Um exemplo solitário de informação é estranho se estiver excessivamente distante do resto. Caso de uso comercial: Distinguindo a extorsão de vistos dependente da “soma gasta”.

Curiosidades relevantes: A anomalia está a ser explicitada. Este tipo de estranheza é básico na informação de organização do tempo. Caso de uso comercial: Queimar 100 dólares em alimentação consistente durante a época natalícia é normal, mas pode ser estranho em geral.

Particularidades agregadas: Muitos exemplos de informação, no conjunto, ajudam no reconhecimento de irregularidades. Caso de uso comercial: Alguém está a tentar duplicar a estrutura de informação de uma máquina remota para um anfitrião próximo, uma peculiaridade que seria aclamada como um potencial ataque digital.

A identificação da peculiaridade é como – mas não tanto como – um clamor de expulsão e descoberta de curiosidades. A identificação da curiosidade é preocupada em reconhecer um exemplo em segredo em novas percepções excluídas na preparação de informações – como um entusiasmo inesperado por outro canal no YouTube durante o Natal, por exemplo. A evacuação da comoção (NR) é o caminho para vacinar o exame do evento de percepções indesejáveis; no final do dia, expulsar o clamor de um sinal geralmente importante.

Procedimentos de Localização de Anormalidade

Técnicas Factuais Directas

A maneira mais fácil de lidar com anormalidades distintas na informação é sinalizar os focos de informação que se desviam das propriedades básicas mensuráveis da circulação, incluindo média, média, modo e quantis. Suponha que o significado de um ponto de informação irregular é aquele que digere por um desvio padrão específico da média. Navegar significa que após algum tempo a informação de disposição não é realmente sem importância, já que não é estática. Você precisaria de uma janela em movimento para processar o normal sobre os focos de informação. Na verdade, isto é conhecido como um normal em movimento ou um normal em movimento, e é proposto para suavizar as variações transitórias e apresentar variações de longo curso. Numericamente, um período de normal em movimento direto pode também ser caracterizado como um “canal de baixa passagem”.

Metodologias baseadas na IA

O que se segue é um esboço conciso de procedimentos proeminentes baseados em IA para identificação de anormalidades.

Detecção de Anomalias Baseadas na Densidade

A detecção de anomalias baseadas na densidade é baseada no algoritmo k-nearest vizinhos.

Suposição: A informação típica acontece em torno de uma vizinhança espessa e variações da norma estão muito longe.

A disposição mais próxima dos focos de informação é avaliada utilizando uma pontuação, que poderia ser a separação Eucletária ou uma medida comparável sujeita ao tipo de informação (total ou numérica). Eles poderiam ser organizados de forma abrangente em dois cálculos:

K-closest neighbor: k-NN é um método básico, não paramétrico e lento de aprendizagem utilizado para organizar a informação dependente de similitudes nas medidas de separação, por exemplo, Eucledian, Manhattan, Minkowski, ou Hamming separação.

A densidade relativa dos dados: Isto também é chamado de fator de exceção próximo (LOF). Esta ideia depende de uma métrica de separação chamada separação de alcançabilidade.

Localização de Bunching Based Oddity

Bunching é uma das ideias mais prevalecentes na área da aprendizagem sem ajuda.

Suspeita: A informação indica que são tendencialmente comparativos têm um lugar com reuniões ou cachos comparativos, como ditado por seus bons caminhos a partir de centroside próximos.

O K-implies é um cálculo de agrupamento geralmente utilizado. Ele faz ‘k’ grupos comparáveis de focos de informação. As ocorrências de informação que não se enquadram nestas reuniões podem ser consideradas inconsistências.

Descoberta da Anormalidade Baseada na Máquina Bolster Vector

Uma máquina vetorial de bolster é outro método convincente para distinguir as anomalias. Uma SVM está normalmente ligada à adaptação gerenciada, mas existem expansões (OneClassCVM, por exemplo) que podem ser utilizadas para reconhecer irregularidades como um problema não atendido (no qual a preparação da informação não é nomeada). O cálculo aprende um limite delicado de modo a agrupar as ocorrências de informação ordinária utilizando o conjunto de preparação, e depois, utilizando a ocasião de teste, afina-se para distinguir as variações da norma que caem fora da área acadêmica.

Consoante o caso de utilização, o rendimento de um identificador de irregularidade pode ser estima numérica escalar para peneirar em limites de área explícitos ou marcas literárias, (por exemplo, dois nomes/múltiplos).

Construindo um Arranjo de Reconhecimento Direto Utilizando um Canal Low-Pass

Neste segmento, vamos nos concentrar na construção de um pacote de localização de inconsistências simples utilizando a movimentação normal para reconhecer anormalidades no número de manchas solares a cada mês em um conjunto de dados exemplo, que pode ser baixado aqui utilizando a ordem que acompanha:

wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt

O recorde tem 3.143 linhas, que contêm dados sobre manchas solares recolhidos entre os anos 1749-1984. As manchas solares são caracterizadas como pontos escuros no exterior do sol. A investigação das manchas solares ajuda os investigadores a compreender as propriedades do sol ao longo de algum tempo; especificamente, as suas propriedades atractivas…

Média Móvel Usando Convolução Linear Discreta

A convolução é uma atividade científica que é realizada em duas capacidades para entregar uma terceira capacidade. Cientificamente, ela poderia ser descrita como o indispensável do resultado de duas capacidades, depois que uma é virada e movida: $f*g(t)$ = $\int_{-{\infty}^{\infty} f(T)*g(t-T) dT$, onde f(T) é uma capacidade de informação que contém a quantidade de intriga (por exemplo, a mancha solar no tempo T). g(t – T) é a capacidade de pesagem movida por uma soma t. Ao longo destas linhas como t muda, várias cargas são doled out para o trabalho de informação f(T). Para a nossa situação, f(T) fala com os contadores de manchas solares no tempo T. g(t – T) é o bit normal em movimento.

de __futuro__ divisão de importação

de itertools importar izip, contar

importação matplotlib.pyplot.plt como plt

do espaço de importação numpy linspace, loadtxt, uns, convolve

importação numérica como np

pandas de importação como pd

cobranças de importação

de importação aleatória randint

de importação em estilo matplotlib

style.use(‘fivethirtyeight’)

%matplotlib em linha

# 1. Baixe o conjunto de dados do sunspot e carregue o mesmo para o diretório do conjunto de dados

# Carregar o conjunto de dados da mancha solar como um Array

Conjunto de dados !mkdir -p

!wget -c -b http://www-personal.umich.edu/~mejn/cp/data/sunspots.txt -P dataet

data = loadtxt(“dataet/sunspots.txt”, float)

# 2. Veja os dados como uma tabela

data_as_frame = pd.DataFrame(data, columns=[‘Months’, ‘SunSpots’])

data_as_frame.head()