K means clustering (K-betekent clustering) is een vorm van onbewaakt leren. Datawetenschappers gebruiken het als ze veel ongelabelde gegevens hebben (alle informatie zonder gedefinieerde groepen of categorieën.) K betekent dat clustering tot doel heeft om gegevens voor verschillende groepen te zoeken. De alfabetische variabele “K” moet elke groep vertegenwoordigen. In tegenstelling tot verschillende algoritmen, werkt deze variabele herhaaldelijk om elk gegevenspunt toe te wijzen aan een K-groep, terwijl de functies waarover de groep beschikt, in aanmerking worden genomen.

De gegevenspunten worden geclusterd op basis van de gelijkenis van hun kenmerken. Hier zijn enkele resultaten van K betekent clustering van het algoritme:

  • U kunt het centrum van K-clusters gebruiken voor het labelen van nieuwe gegevens.
  • Elk cluster heeft de training data labels toegewezen gekregen.

In plaats van het definiëren van groepen voor het bestuderen van de gegevens, stelt dit algoritme u in staat om de organisch gevormde groepen te zoeken en te begrijpen. In dit artikel vindt u een sectie met de titel “Selecteren van K”. Het beschrijft hoe u het aantal groepen kunt bepalen.

De centroïde van elk cluster is een verzameling van waarden die de resulterende groepen definiëren. Het analyseren van de centroïde functie kan helpen bij het interpreteren van het type groep dat door elk cluster wordt vertegenwoordigd.

Zakelijk gebruik van K betekent clusteren

Gegevenswetenschappers gebruiken het K-algoritme voor het clusteren van groepen die geen gegevenslabels hebben. De procedure helpt bij het bevestigen van verschillende bedrijfsgerelateerde aannames met betrekking tot de soorten bestaande groepen. Je kunt het ook gebruiken om onbekende groepen te ontdekken uit uitgebreide datasets. Zodra het algoritme zijn proces heeft voltooid en de groep is gedefinieerd, kunt u eenvoudig nieuwe gegevens aan de betreffende groep toewijzen. K betekent dat clustering een zeer veelzijdig algoritme is dat helpt bij vrijwel elk type groepering. Hier zijn enkele voorbeelden:

Spotting Anomalieën of Bots

  • Aparte bots van nuttige activiteitengroepen
  • Het algoritme helpt bij het wissen van de detectie van uitschieters door middel van groepsgeldige activiteit

Het classificeren van sensormetingen

  • Het detecteren van groepsfoto’s
  • Identificeren van gezondheidsmonitoringgroepen
  • Het scheiden van audio
  • Detectie van verschillende activiteiten in bewegingssensoren

Inventarisatie Categorisering

  • Groepsinventaris met productiemetingen
  • Groepsinventaris met verkoopactiviteit

Gedragssegmentatie

  • Definiëren van op rente gebaseerde persona’s
  • Aanmaken van op activiteitsmonitoring gebaseerde profielen
  • Segmentering met door gebruik te maken van de aankoophistorie
  • Het creëren van segmenten door het beoordelen van activiteiten op platforms, websites en applicaties

Inzicht in het algoritme

K betekent clustering van het algoritme dat de uiteindelijke resultaten worden verkregen door gebruik te maken van iteratieve verfijningstechnieken. De dataset en het aantal clusters is de invoer van het algoritme. Ook is de dataset een groep van kenmerken voor elk gegevenspunt. Zoals eerder besproken, begint het algoritme met de eerste schattingen van K centroid. Deze kunnen willekeurig worden geselecteerd of willekeurig worden gegenereerd uit de set. Het algoritme herhaalt vervolgens de volgende stappen.

Gegevenstoewijzing Stap

Elke centroïde bepaalt een cluster. In deze procedure wordt elk gegevenspunt toegewezen aan de dichtstbijzijnde centroïde op de Euclidische afstand.

Centroïde Update Stap

Het algoritme hercompenseert de centroïden in deze stap. Het doet dit door het gemiddelde van elk gegevenspunt te verzamelen dat aan het cluster van de centroïde is toegewezen.

Het algoritme herhaalt de stappen één en twee totdat het voldoet aan een stopcriterium. De K betekent clusteringsalgoritmen die een nauwkeurig resultaat garanderen. Het verkregen resultaat is echter soms niet het meest wenselijke. Het analyseren van meerdere algoritmen met willekeurige beginnende centroïden kan een beter resultaat opleveren.

Het selecteren van K

K betekent dat clustering in de eerste plaats bedoeld is om dataset-etiketten en -clusters te vinden voor specifieke, vooraf gekozen Ks. Gebruikers moeten dit algoritme dus uitvoeren voor een grote verscheidenheid aan K-waarden en elk resultaat naast elkaar analyseren om het aantal gegevensclusters te bepalen. Er is geen specifieke methode om de exacte waarde van K’s te bepalen. U kunt echter nog steeds nauwkeurige schattingen verkrijgen door gebruik te maken van de hieronder genoemde technieken.

Verder is de gemiddelde afstand in het midden van de clustercentroïde en zijn datapunten een populaire metriek die vaak wordt gebruikt om de resultaten over talrijke K-waarden te vergelijken. Aangezien het vergroten van clusters de afstand tussen de datapunten zal minimaliseren, zal het vergroten van het aantal clusters de afstand van de datapunten elke keer verminderen. Uitbreiding van K zal de metrische waarde verminderen en zou tot nul kunnen leiden zolang K gelijk is aan de hoeveelheid datapunten.

U kunt deze metriek dus niet gebruiken als een enkel doelwit. Als alternatief kunt u de gemiddelde afstand van de centroïde plotten als de functie van K, waarbij de dalingssnelheid sterk verschuift. Het zou u een ruw antwoord op K kunnen geven. Tal van andere technieken zouden u kunnen helpen bij het valideren van K. Hier is een lijst van enkele populaire methoden die door ervaren datawetenschappers worden gebruikt.

  • G-algoritme
  • De silhouetmethode
  • Theoretische spronginformatiemethode
  • Informatiecriteria
  • Kruisvalidatiemethode

Daarnaast biedt het observeren van de verdeling van de datapunten over verschillende groepen een waardevol inzicht in de manier waarop het algoritme de gegevens voor K’s splitst.

De rol van Feature Engineering in K means clustering (K-betekent clustering)

Feature engineering is een proces waarbij u gebruik maakt van domeinkennis om nauwkeurige gegevensmetrieken te selecteren. Mensen gebruiken feature engineering om de juiste metrieken te bepalen voor hun machinale leeralgoritmen. Het zou eerlijk zijn om te beweren dat dit engineering-type een kritische rol speelt in het K-algoritme. Het helpt je om natuurlijke sets te onderscheiden met weinig tot geen gedoe.

Categorische gegevens zoals browsertypes, landen, geslacht moeten worden gescheiden of gecodeerd op een manier die goed past bij het algoritme. Eigenschapstransformaties zijn vooral nuttig voor het weergeven van snelheden in plaats van metingen. Het is zeer nuttig voor het normaliseren van gegevens.

K Betekent Clustering van Echte Wereld Toepassingen

K betekent dat clustering steeds populairder wordt in verschillende industrieën. Hier zijn enkele populaire real-world toepassingen van dit revolutionaire algoritme.

Aanbeveling Motoren

Clustering is heel gunstig voor aanbevelingsmotoren. U kunt gebruik maken van dit algoritme en nummers of films aanbevelen aan uw vrienden op basis van hun voorkeuren.

Beeldsegmentatie

K betekent dat clustering uitstekend geschikt is voor het segmenteren van foto’s. Illustratie- en bewerkingsprogramma’s kunnen profiteren van de eigenschappen van dit algoritme voor het segmenteren van afbeeldingen.

Documenten clusteren

Clustering kan u helpen bij het groeperen van talrijke documenten in weinig tot geen tijd. Het is vooral nuttig voor mensen die meerdere documenten hebben die verschillende informatie bevatten.

Klantensegmentatie

Tal van industrieën maken gebruik van K, wat betekent dat ze hun processen moeten stroomlijnen door de klantensegmentering te clusteren. Verkoop, reclame, sport, e-commerce, bankieren en telecommunicatie zijn enkele gebieden die gebruik maken van dit algoritme.