K Means Clustering, dass Clustering eine Form des unbeaufsichtigten Lernens ist. Datenwissenschaftler verwenden es, wenn sie über eine Menge unmarkierter Daten verfügen (beliebige Informationen ohne definierte Gruppen oder Kategorien). K bedeutet, dass das Ziel des Clustering darin besteht, Daten für verschiedene Gruppen zu suchen. Die alphabetische Variable “K” sollte jede Gruppe repräsentieren. Im Gegensatz zu verschiedenen Algorithmen arbeitet dieser Algorithmus wiederholt daran, jeden Datenpunkt unter Berücksichtigung der ihm zur Verfügung stehenden Merkmale einer K-Gruppe zuzuordnen.

Die Datenpunkte werden auf der Grundlage der Ähnlichkeit ihrer Merkmale geclustert. Hier sind einige Ergebnisse des K bedeutet Clustering-Algorithmus:

  • Sie können das Zentrum von K-Clustern zur Beschriftung neuer Daten verwenden.
  • Jedem Cluster sind die Beschriftungen für Trainingsdaten zugeordnet.

Anstatt vor dem Studium der Daten Gruppen zu definieren, ermöglicht Ihnen dieser Algorithmus, die organisch gebildeten Gruppen zu suchen und zu verstehen. In diesem Artikel finden Sie einen Abschnitt mit dem Titel “K auswählen”. Er beschreibt, wie Sie die Anzahl der Gruppen bestimmen können.

Der Schwerpunkt jedes Clusters ist eine Sammlung von Werten, die die resultierenden Gruppen definieren. Die Analyse des Schwerpunktsmerkmals kann bei der Interpretation der Art der Gruppe helfen, die durch jeden Cluster repräsentiert wird.

Geschäftliche Verwendung von K Means Clustering

Datenwissenschaftler verwenden K bedeutet Clustering-Algorithmus, um Gruppen zu identifizieren, denen Datenkennzeichen fehlen. Das Verfahren hilft, verschiedene geschäftsbezogene Annahmen über die Art der vorhandenen Gruppen zu bestätigen. Sie können es auch verwenden, um unbekannte Gruppen aus aufwendigen Datensätzen zu entdecken. Sobald der Algorithmus seinen Prozess abgeschlossen und die Gruppe definiert hat, können Sie der jeweiligen Gruppe problemlos neue Daten zuweisen. K bedeutet, dass Clustering ein äußerst vielseitiger Algorithmus ist, der bei praktisch jeder Art von Gruppierung hilft. Hier sind einige Beispiele:

Erkennung von Anomalien oder Bots

  • Trennen Sie Bots von nützlichen Aktivitätsgruppen
  • Der Algorithmus hilft, die Ausreißererkennung durch gruppengültige Aktivität zu klären

Klassifizieren von Sensormessungen

  • Erkennen von Gruppenfotos
  • Identifizieren von Gesundheitsüberwachungsgruppen
  • Audio trennen
  • Erkennen verschiedener Aktivitäten in Bewegungssensoren

Inventar-Kategorisierung

  • Gruppenbestand mit Fertigungskennzahlen
  • Gruppeninventar mit Verkaufsaktivität

Verhaltensbasierte Segmentierung

  • Definition von interessenbasierten Personas
  • Erstellen von auf Aktivitätsüberwachung basierenden Profilen
  • Segmentierung mit durch Nutzung der Kaufhistorie
  • Erstellen von Segmenten durch Beurteilung von Aktivitäten auf Plattformen, Websites und Anwendungen.

Den Algorithmus verstehen

K bedeutet, dass der Clustering-Algorithmus unter Verwendung iterativer Verfeinerungstechniken Endergebnisse erzeugt. Der Datensatz und die Anzahl der Cluster sind die Eingaben des Algorithmus. Außerdem ist der Datensatz eine Gruppe von Merkmalen für jeden Datenpunkt. Wie bereits besprochen, beginnt der Algorithmus mit den ersten Schätzungen des K-Schwerpunkts. Sie können zufällig ausgewählt oder zufällig aus dem Satz generiert werden. Der Algorithmus wiederholt dann die folgenden Schritte.

Schritt der Datenzuweisung

Jeder Schwerpunkt bestimmt einen Cluster. Bei diesem Verfahren wird jedem Datenpunkt sein nächstgelegener Schwerpunkt auf seiner euklidischen Distanz zugeordnet.

Zentroid-Aktualisierungsschritt

Der Algorithmus berechnet in diesem Schritt die Zentroide neu. Dazu sammelt der Algorithmus den Mittelwert jedes Datenpunktes, der dem Cluster des Schwerpunktes zugeordnet ist.

Der Algorithmus wiederholt die Schritte eins und zwei, bis ein Stoppkriterium erfüllt ist. Das K bedeutet, dass Clustering-Algorithmen genaue Ergebnisse garantieren. Allerdings kann das erzielte Ergebnis manchmal nicht das wünschenswerteste sein. Die Analyse mehrerer Algorithmen mit zufälligen Startschwerpunkten könnte ein besseres Ergebnis liefern.

Auswahl von K

K bedeutet, dass der Hauptzweck des Clustering darin besteht, Datensatzetiketten und -cluster für bestimmte vorgewählte Ks zu finden. Daher müssen Benutzer diesen Algorithmus für eine Vielzahl von K-Werten ausführen und jedes Ergebnis nebeneinander analysieren, um die Anzahl der Datencluster zu bestimmen. Es gibt keine bestimmte Methode zur Bestimmung des exakten Ks-Wertes. Sie können jedoch immer noch genaue Schätzungen erhalten, indem Sie die unten genannten Techniken verwenden.
Eine beliebte Metrik, die häufig für den Vergleich von Ergebnissen über zahlreiche K-Werte hinweg verwendet wird, ist der mittlere Abstand in der Mitte des Schwerpunktes des Clusters und seiner Datenpunkte. Da mit zunehmender Anzahl von Clustern der Abstand zwischen den Datenpunkten minimiert wird, verringert sich der Abstand der Datenpunkte jedes Mal, wenn die Anzahl der Cluster erhöht wird. Die Erweiterung von K verringert die Metrik und könnte sie bis auf Null reduzieren, solange K der Anzahl der Datenpunkte ähnlich ist.

Sie können diese Metrik also nicht als einzelnes Ziel verwenden. Alternativ können Sie den mittleren Abstand des Schwerpunktes als Funktion von K darstellen, wobei sich die Abnahmerate stark verschiebt. Dies könnte Ihnen eine grobe Antwort auf K geben. Zahlreiche andere Techniken könnten Ihnen bei der Validierung von K helfen. Hier ist eine Liste einiger beliebter Methoden, die von erfahrenen Datenwissenschaftlern verwendet werden.

  • G-Mittel-Algorithmus
  • Die Scherenschnittmethode
  • Theoretisches Sprunginformationsverfahren
  • Kriterien für Informationen
  • Verfahren zur Kreuzvalidierung

Zusätzlich bietet die Beobachtung der Datenpunktverteilung über verschiedene Gruppen wertvolle Einblicke in die Art und Weise, wie der Algorithmus die Daten für Ks aufteilt.

Die Rolle des Feature Engineering bei K bedeutet Clustering

Feature Engineering ist ein Prozess, bei dem Sie Domänenwissen nutzen, um genaue Datenmetriken auszuwählen. Das Feature Engineering wird zur Bestimmung der korrekten Metriken verwendet, die in den Algorithmen des maschinellen Lernens verwendet werden sollen. Man kann mit Fug und Recht behaupten, dass dieser Engineering-Typ eine entscheidende Rolle im K bedeutet Clustering-Algorithmus spielt. Er hilft Ihnen, natürlich vorkommende Mengen mit wenig bis gar keinem Aufwand zu unterscheiden.

Kategorische Daten wie Browsertypen, Länder, Geschlecht müssen getrennt oder so kodiert werden, dass sie gut mit dem Algorithmus harmonieren. Merkmalstransformationen sind besonders hilfreich für die Darstellung von Raten anstelle von Messungen. Für die Normalisierung von Daten ist sie äußerst hilfreich.

K Means Clustering von Anwendungen der realen Welt

K bedeutet, dass Clusterbildung in verschiedenen Branchen immer beliebter wird. Hier sind einige beliebte Anwendungen dieses revolutionären Algorithmus aus der realen Welt.

Empfehlung Engines

Clustering ist für Empfehlungsmaschinen recht vorteilhaft. Sie können diesen Algorithmus nutzen und Ihren Freunden Lieder oder Filme auf der Grundlage ihrer Vorlieben empfehlen.

Bild-Segmentierung

K bedeutet, dass Clustering sich hervorragend zur Segmentierung von Fotos eignet. Illustrations- und Bearbeitungsprogramme können von den Bildsegmentierungsattributen dieses Algorithmus profitieren.

Dokumenten-Clustering

Clustering kann Ihnen helfen, zahlreiche Dokumente in kürzester Zeit zu gruppieren. Es ist besonders hilfreich für Personen, die mehrere Dokumente mit unterschiedlichen Informationen besitzen.

Kundensegmentierung

Zahlreiche Industriezweige nutzen die Qualitäten der Kundensegmentierung des Clustering, um ihre Prozesse zu rationalisieren. Verkauf, Werbung, Sport, E-Commerce, Bankwesen und Telekommunikation sind einige Bereiche, die von diesem Algorithmus profitieren.