K Means Clustering é uma forma de aprendizagem não supervisionada. Os cientistas de dados utilizam-no quando têm uma grande quantidade de dados não etiquetados (qualquer informação sem grupos ou categorias definidas.) K significa que o objectivo do agrupamento é a pesquisa de dados para vários grupos. A variável alfabética “K” deve representar cada grupo. Ao contrário de vários algoritmos, esta trabalha repetidamente para atribuir cada ponto de dados a um grupo K ao mesmo tempo que considera as características à sua disposição.

Os pontos de dados tornam-se agrupados com base na similaridade das suas características. Aqui estão alguns resultados de K significa algoritmo de agregação:

  • Pode-se usar o centro dos aglomerados K para rotular novos dados.
  • Cada agrupamento tem as etiquetas de dados de formação que lhe são atribuídas.

Em vez de definir grupos antes de estudar os dados, este algoritmo permite pesquisar e compreender os grupos formados organicamente. Encontrará uma secção intitulada “Selecção K” neste artigo. Descreve como se pode determinar o número de grupos.

O centróide de cada grupo é uma colecção de valores que definem os grupos resultantes. A análise da característica centroide pode ajudar a interpretar o tipo de grupo representado por cada agrupamento.

Usos empresariais do agrupamento de K significa

Os cientistas de dados utilizam o algoritmo K para identificar grupos sem etiquetas de dados. O procedimento ajuda a confirmar vários pressupostos relacionados com os tipos de grupos existentes. Também se pode utilizá-lo para descobrir grupos desconhecidos a partir de conjuntos de dados elaborados. Assim que o algoritmo completar o seu processo e definir o grupo, pode facilmente atribuir novos dados ao seu respectivo grupo. K significa que o clustering é um algoritmo altamente versátil que ajuda em praticamente todos os tipos de agrupamento. Aqui estão alguns exemplos:

Anomalias de Spotting Anomalies ou Bots

  • Separar os bots dos grupos de actividade úteis
  • O algoritmo ajuda a limpar a detecção de anomalias através de actividade válida de grupo

Classificação das medidas do sensor

  • Detecção de fotografias de grupo
  • Identificação de grupos de vigilância sanitária
  • Separação de áudio
  • Detecção de várias actividades em sensores de movimento

Categorização do inventário

  • Inventário de grupo com métricas de fabrico
  • Inventário de grupo com actividade de vendas

Segmentação comportamental

  • Definição de personas baseadas em juros
  • Criação de perfis baseados na monitorização de actividades
  • Segmentar com utilizando o histórico de compras
  • Criação de segmentos através do julgamento de actividades em plataformas, websites e aplicações

Compreender o Algoritmo

K significa que o algoritmo de agrupamento produz resultados finais através da utilização de técnicas de refinamento iterativo. O conjunto de dados e o número de clusters são as entradas do algoritmo. Além disso, o conjunto de dados é um grupo de características para cada ponto de dados. Como discutido anteriormente, o algoritmo começa com as estimativas iniciais do K centroid. Podem ser seleccionadas aleatoriamente ou geradas aleatoriamente a partir do conjunto. O algoritmo repete então os seguintes passos.

Etapa de Atribuição de Dados

Cada centroide determina um aglomerado. Neste procedimento, cada ponto de dados é atribuído ao seu centróide mais próximo do seu casco na sua distância euclidiana.

Etapa de actualização do centróide

O algoritmo recompila os centroides nesta etapa. Fá-lo através da recolha da média de cada ponto de dados atribuído ao agrupamento do centróide.

O algoritmo repete os passos um e dois até cumprir um critério de paragem. O K significa algoritmos de clustering que garantem resultados precisos. No entanto, o resultado obtido por vezes pode não ser o mais desejável. A análise de múltiplos algoritmos com centróides de arranque aleatórios poderia proporcionar um melhor resultado.

Selecção de K

K significa que o objectivo principal do agrupamento é encontrar etiquetas e agrupamentos de conjuntos de dados para Ks específicos pré-seleccionados. Assim, os utilizadores devem executar este algoritmo para uma grande variedade de valores K e analisar cada resultado lado a lado para determinar o número de clusters de dados. Não existe um método particular para determinar o valor exacto de Ks. No entanto, ainda é possível obter estimativas precisas utilizando as técnicas mencionadas abaixo.

Além disso, uma métrica popular geralmente utilizada para comparar resultados através de numerosos valores K é a distância média no meio do centróide do cluster e os seus pontos de dados. Uma vez que o aumento dos clusters irá minimizar a distância entre os pontos de dados, o aumento do número de clusters irá reduzir a distância dos pontos de dados de cada vez. A expansão de K irá diminuir a métrica e poderá torná-la tão baixa quanto zero, desde que K seja semelhante à quantidade de pontos de dados.

Portanto, não se pode utilizar esta métrica como um único alvo. Em alternativa, pode traçar a distância média do centroide como função de K, onde a taxa de diminuição se desloca acentuadamente. Pode fornecer uma resposta aproximada a K. Numerosas outras técnicas poderiam ajudá-lo a validar K. Aqui está uma lista de alguns métodos populares utilizados por cientistas de dados experientes.

  • Algoritmo G significa
  • O método da silhueta
  • Método de informação de salto teórico
  • Critérios de informação
  • Método de validação cruzada

Além disso, a observação da distribuição de pontos de dados por vários grupos oferece uma visão valiosa sobre como o algoritmo divide os dados para Ks.

O Papel da Engenharia de Características no K Means Clustering

A engenharia de características é um processo em que se utiliza o conhecimento do domínio para seleccionar métricas de dados precisas. As pessoas utilizam a engenharia de características para determinar as métricas correctas a incluir nos seus algoritmos de aprendizagem da máquina. Seria justo afirmar que este tipo de engenharia desempenha um papel crítico no K significa algoritmo de clustering. Ajuda-o a distinguir conjuntos que ocorrem naturalmente com pouco ou nenhum incómodo.

Dados categóricos como tipos de browser, países, género devem ser separados ou codificados de uma forma que se misture bem com o algoritmo. As transformações de características são especialmente úteis para representar taxas em vez de medições. É de grande ajuda para normalizar os dados.

K Significa Clustering Real World Applications (Aglomeração de Aplicações do Mundo Real)

K significa que o clustering está a tornar-se cada vez mais popular em várias indústrias. Aqui estão algumas aplicações populares do mundo real deste revolucionário algoritmo.

Motores de Recomendação

A agregação é bastante benéfica para os motores de recomendação. Pode tirar partido deste algoritmo e recomendar canções ou filmes aos seus amigos com base nas suas preferências.

Segmentação de imagens

K significa que o agrupamento é excelente para segmentar fotos. Os programas de ilustração e edição podem beneficiar dos atributos de segmentação de imagem deste algoritmo.

Agrupamento de documentos

O agrupamento pode ajudá-lo a agrupar numerosos documentos em pouco ou pouco tempo. É particularmente útil para pessoas que possuem múltiplos documentos contendo diferentes pedaços de informação.

Segmentação de clientes

Numerosas indústrias utilizam as qualidades de segmentação de clientes de K para racionalizar os seus processos. Vendas, publicidade, desporto, comércio electrónico, banca e telecomunicações são alguns campos que tiram partido deste algoritmo.