K-means Clustering è una forma di apprendimento non supervisionato. Gli scienziati dei dati lo usano quando hanno carichi di dati non etichettati (qualsiasi informazione senza gruppi o categorie definite.) K significa che l’obiettivo del clustering è la ricerca di dati per vari gruppi. La variabile alfabetica “K” dovrebbe rappresentare ogni gruppo. Contrariamente a diversi algoritmi, questa funziona ripetutamente per assegnare ogni punto di dati ad un gruppo K considerando le caratteristiche a sua disposizione.

I punti dati diventano raggruppati in base alla somiglianza delle loro caratteristiche. Ecco alcuni risultati di K significa algoritmo di clustering:

  • È possibile utilizzare il centro dei cluster K per etichettare nuovi dati.
  • Ad ogni cluster sono assegnate le etichette dei dati di formazione.

Invece di definire i gruppi prima di studiare i dati, questo algoritmo permette di cercare e comprendere i gruppi formati organicamente. In questo articolo troverete una sezione intitolata “Selezione K”. Essa descrive come si può determinare il numero di gruppi.

Il centroide di ogni cluster è un insieme di valori che definisce i gruppi risultanti. L’analisi della caratteristica del centroide può aiutare ad interpretare il tipo di gruppo rappresentato da ciascun gruppo.

Usi commerciali di K significa raggruppamento in cluster

Gli scienziati dei dati usano l’algoritmo di clustering K per identificare i gruppi privi di etichette di dati. La procedura aiuta a confermare varie ipotesi di business relative ai tipi di gruppi esistenti. È anche possibile utilizzarlo per scoprire gruppi sconosciuti da insiemi di dati elaborati. Una volta che l’algoritmo ha completato il suo processo e definito il gruppo, è possibile assegnare facilmente nuovi dati al rispettivo gruppo. K significa che il clustering è un algoritmo altamente versatile che aiuta praticamente ogni tipo di gruppo. Ecco alcuni esempi:

Individuare anomalie o bot

  • Separare i bot dai gruppi di attività utili
  • L’algoritmo aiuta a cancellare il rilevamento di anomalie attraverso un’attività valida per il gruppo

Classificazione delle misure dei sensori

  • Rilevamento di foto di gruppo
  • Identificazione dei gruppi di monitoraggio della salute
  • Separazione dell’audio
  • Rilevamento di varie attività nei sensori di movimento

Categorizzazione dell’inventario

  • Inventario di gruppo con metriche di produzione
  • Inventario del Gruppo con attività di vendita

Segmentazione comportamentale

  • Definizione di personas basate sugli interessi
  • Creazione di profili basati sul monitoraggio delle attività
  • Segmentazione con l’utilizzo della storia degli acquisti
  • Creazione di segmenti valutando le attività su piattaforme, siti web e applicazioni

Capire l’algoritmo

K significa che l’algoritmo di clustering produce risultati finali utilizzando tecniche di affinamento iterative. L’insieme di dati e il numero di cluster è l’input dell’algoritmo. Inoltre, l’insieme di dati è un gruppo di caratteristiche per ogni punto di dati. Come discusso in precedenza, l’algoritmo inizia con le stime iniziali di K centroide. Esse possono essere selezionate casualmente o generate casualmente dall’insieme. L’algoritmo ripete poi i seguenti passi.

Fase di assegnazione dei dati

Ogni centroide determina un gruppo. In questa procedura, ogni punto di dati è assegnato al suo centroide più vicino euclideo sulla sua distanza euclidea.

Fase di aggiornamento del centroide

L’algoritmo ricalcola i centroidi in questa fase. Lo fa raccogliendo la media di ogni punto dati assegnato al gruppo del centroide.

L’algoritmo ripete i passi uno e due fino a soddisfare un criterio di arresto. Il K significa che gli algoritmi di clustering garantiscono risultati accurati. Tuttavia, il risultato ottenuto a volte può non essere il più desiderabile. L’analisi di più algoritmi con i centriidi di partenza casuali potrebbe fornire un risultato migliore.

Selezionando K

K significa che lo scopo principale del clustering è quello di trovare le etichette dei set di dati e i cluster per specifici K predefiniti. Quindi, gli utenti devono eseguire questo algoritmo per un’ampia varietà di valori K e analizzare ogni risultato fianco a fianco per determinare il numero di cluster di dati. Non esiste un metodo particolare per determinare il valore esatto di Ks. Tuttavia, è comunque possibile ottenere stime accurate utilizzando le tecniche menzionate di seguito.

Inoltre una metrica popolare comunemente usata per confrontare i risultati su numerosi valori K è la distanza media al centro del centroide del cluster e i suoi punti di dati. Poiché aumentando i cluster si riduce al minimo la distanza tra i punti dati, aumentando il numero di cluster si riduce ogni volta la distanza dei punti dati. L’espansione di K diminuirà la metrica e potrebbe farla scendere fino a zero finché K è simile alla quantità di punti dati.

Quindi, non si può usare questa metrica come un unico obiettivo. In alternativa, si può tracciare la distanza media del centroide come funzione di K, dove il tasso di diminuzione si sposta notevolmente. Potrebbe fornire una risposta approssimativa a K. Numerose altre tecniche potrebbero aiutarvi a convalidare K. Ecco un elenco di alcuni metodi popolari usati da esperti scienziati dei dati.

  • Algoritmo G significa
  • Il metodo della silhouette
  • Metodo di informazione sul salto teorico
  • Criteri di informazione
  • Metodo di convalida incrociata

Inoltre, l’osservazione della distribuzione dei punti di dati tra i vari gruppi offre una preziosa visione di come l’algoritmo divide i dati per i Ks.

Il ruolo dell’ingegneria delle caratteristiche in K-means Clustering

L’ingegneria delle caratteristiche è un processo in cui si utilizza la conoscenza del dominio per selezionare le metriche accurate dei dati. Le persone usano l’ingegneria delle caratteristiche per determinare le metriche corrette da inserire nei loro algoritmi di apprendimento automatico. Sarebbe corretto affermare che questo tipo di ingegneria gioca un ruolo critico nell’algoritmo K significa clustering. Esso aiuta a distinguere gli insiemi naturali con poco o nessun problema.

I dati categorici come i tipi di browser, i paesi, il genere devono essere separati o codificati in modo che si fondano bene con l’algoritmo. Le trasformazioni delle caratteristiche sono particolarmente utili per rappresentare i tassi invece delle misurazioni. È molto utile per normalizzare i dati.

K-means Clustering- le applicazioni del mondo reale

K significa che il clustering sta diventando sempre più popolare in vari settori industriali. Ecco alcune popolari applicazioni del mondo reale di questo rivoluzionario algoritmo.

Motori di raccomandazione

Il clustering è molto utile per i motori di raccomandazione. Potete approfittare di questo algoritmo e consigliare canzoni o film ai vostri amici in base alle loro preferenze.

Segmentazione delle immagini

K significa che il clustering è eccellente per la segmentazione delle foto. I programmi di illustrazione e di editing possono trarre vantaggio dagli attributi di segmentazione delle immagini di questo algoritmo.

Clustering del documento

Il clustering può aiutarvi a raggruppare numerosi documenti in poco tempo. È particolarmente utile per chi possiede più documenti contenenti informazioni diverse.

Segmentazione del cliente

Numerose industrie utilizzano le qualità di segmentazione dei clienti del clustering per ottimizzare i loro processi. Vendite, pubblicità, sport, commercio elettronico, banche e telecomunicazioni sono alcuni campi che sfruttano questo algoritmo.