Clustering is een krachtige machinale leermethode met behulp van datapuntgroepen. Met een set van verschillende datapunten kunnen datawetenschappers gebruik maken van een clusteringalgoritme om elk datapunt in een bepaalde groep te categoriseren of te classificeren. Theoretisch gezien bevatten de datapunten in dezelfde groep vergelijkbare kenmerken of eigenschappen. Aan de andere kant bevatten datapunten in afzonderlijke groepen zeer unieke kenmerken of eigenschappen.
Clusteren is een onbeheerde leermethode en is een populaire techniek onder datawetenschappers om statistische data-analyses op verschillende gebieden te verkrijgen. Mensen maken gebruik van clusteringanalyse in de datawetenschap om kritische inzichten te verkrijgen. Ze analyseren de groepen waarin elk datapunt valt bij het toepassen van clusteringalgoritmes. Ben je nieuw in het clusteren van algoritmen en wil je de ins en outs ervan leren? Lees dit artikel verder, want het bespreekt alles wat je moet weten over de basisprincipes van het clusteren van algoritmen.
Betekenis van clusteren
Clusteringsalgoritmen zijn essentieel voor datawetenschappers om aangeboren groeperingen te ontdekken tussen ongelabelde en gelabelde datapresets. Verrassend genoeg zijn er geen bijzondere criteria om een goede clustering te benadrukken. Het gaat om individuele voorkeuren, eisen en wat een datawetenschapper gebruikt om in zijn behoefte te voorzien.
Laten we zeggen dat men bijvoorbeeld geïnteresseerd zou kunnen zijn in het ontdekken van homogene groepsvertegenwoordigers (datareductie), in natuurlijke clusters en het definiëren van hun onbekende eigenschappen. Sommige mensen willen ook ongewone dataobjecten en andere geschikte groeperingen vinden. Hoe dan ook, dit algoritme maakt verschillende aannames die overeenkomsten vormen tussen verschillende punten. Bovendien maakt elke gok nieuwe maar even goed onderbouwde clusters.
Clusteringstechnieken
Hiërarchisch gebaseerde methoden
De clusters die in deze procedure worden gecreëerd, creëren een boomachtige structuur die de hiërarchie vertegenwoordigt. De nieuwe clusters die op de boom verschijnen, zijn afkomstig van eerder gevormde klompjes. Deskundigen hebben ze in de volgende categorieën ingedeeld:
Agglomeratief
Bottom-up benadering – Elk gegevenspunt is een enkel cluster en ze voegen voortdurend samen (agglomeraat) tot ze allemaal geleidelijk aan tot een enkel cluster zijn gefuseerd. Dit proces wordt ook wel HAC genoemd.
Verdelende
Top-downbenadering – Beginnend met alle gegevens in één enkel cluster, die zich geleidelijk opsplitsen tot alle gegevenspunten gescheiden zijn.
Op dichtheid gebaseerde methoden
Bij op dichtheid gebaseerde methoden worden clusters opgevat als dichtere gebieden met enige overeenkomsten en verschillen ten opzichte van lager gelegen gebieden. Methoden als deze bieden een uitstekende nauwkeurigheid en kunnen met gemak twee clusters combineren.
Rastergebaseerde methoden
Rastergebaseerde methoden formuleren de dataruimte in een beperkt aantal cellen die een structuur vormen die lijkt op een regulier raster. Elke clustering die op deze rasters plaatsvindt is onafhankelijk en snel.
Verdelingsmethoden
Partitioneringstechnieken verdelen de objecten, waardoor ze worden getransformeerd in k-clusters. Elke partitie creëert één cluster. Datawetenschappers maken vaak gebruik van deze methode om onpartijdige vergelijkingsfuncties te optimaliseren, vooral wanneer een afstand een belangrijke parameter is.
Wat is K-Means Clustering
K-Means is misschien wel het meest erkende clusteringsalgoritme. De meeste cursussen voor machinaal leren en datawetenschappen, vooral de introductielessen, leren dit algoritme. Het is vrij eenvoudig te begrijpen, en de implementatie ervan in code is nog eenvoudiger. K-Means onderscheidt zich van andere algoritmen door zijn snelle tempo. De meesten van ons berekenen afstanden tussen groepscentra en punten met minimale berekeningen. De complexiteit is dus vaak lineair O{n).
Real-World voorbeelden van Clustering Algorithmes die gebruikt worden
Het clusteringalgoritme is revolutionair geweest in de datawetenschappelijke wereld. Talrijke domeinen maken er gebruik van en behalen uitstekende resultaten. Hieronder volgen enkele voorbeelden uit de praktijk die het nut van dit algoritme illustreren.
Herkennen van vals nieuws
Nepnieuws is niets nieuws, maar het komt wel vaker voor in vergelijking met tien jaar geleden. Technologische innovaties zijn vooral verantwoordelijk voor het creëren en distribueren van authentieke verhalen op verschillende online platformen. Twee studenten van de University of California gebruikten clusteringalgoritmes om nepnieuws te herkennen.
Het algoritme haalde inhoud uit verschillende nieuwsartikelen en onderzocht hun woorden. Clusters helpen het algoritme om de echte en onoprechte stukken te identificeren. De studenten computerwetenschappen leerden dat click-bait-artikelen sensationele woordenschat gebruikten. Het gaf aan dat de meeste artikelen die sensatiezucht gebruikten niet authentiek waren.
Verkoop en marketing
Bij grote bedrijven draait het allemaal om het richten en personaliseren van hun producten. Dit doen ze door de specifieke kenmerken van mensen te analyseren en programma’s te delen om ze aan te trekken. Het is een beproefde methode die organisaties helpt zich te richten op specifieke doelgroepen. Helaas zijn sommige bedrijven niet succesvol in hun verkoop- en marketinginspanningen.
U moet zich op de juiste manier richten op mensen om het meeste uit uw investering te halen. U riskeert aanzienlijke verliezen en wantrouwen van klanten door niet te analyseren wat uw publiek wil. Clusteringsalgoritmen kunnen individuen met vergelijkbare eigenschappen groeperen en analyseren of ze uw product zullen kopen. Het creëren van groepen kan bedrijven helpen bij het uitvoeren van tests om te bepalen wat ze moeten doen om hun verkoop te verbeteren.
Fantasiesporten
Je zou verbaasd zijn om te zien hoe nuttig clustering algoritmes zijn voor fantasie voetbal en diverse andere digitale sporten. Mensen hebben vaak moeite om te bepalen wie ze aan hun team moeten toevoegen. Het kiezen van goed presterende spelers, vooral in het begin van het seizoen, is nogal gecompliceerd. Waarom? Omdat je de huidige vorm van de sporter niet kent. Met weinig tot geen prestatiegegevens tot uw beschikking kunt u profiteren van onbewaakt leren.
Het zou u kunnen helpen om soortgelijke spelers te ontdekken met behulp van een aantal van hun attributen. K betekent dat clustering bijzonder handig is voor dergelijke situaties, waardoor je de bovenhand krijgt bij de start van de competitie.
Identificeren van criminele activiteiten
Terwijl het clusteren van algoritmen kan helpen bij verschillende criminele activiteiten, laten we ons richten op het frauduleuze gedrag van een taxichauffeur. Laten we zeggen dat u wilt weten of de chauffeur liegt over de afstand die hij per dag heeft afgelegd. Hoe identificeert u of hij of zij liegt of de waarheid vertelt?
Clustering kan u helpen bij het analyseren van GPS-logs en het creëren van een groep van identieke gedragingen. U kunt de kenmerken van de groep bestuderen en frauduleus en oprecht gedrag classificeren.
Spamfilters
Onze e-mailinboxen bevatten junkmappen met talrijke berichten die als spam zijn geïdentificeerd. Veel cursussen voor machinaal leren maken gebruik van het spamfilter om clustering en onbeheerd leren te laten zien. Spam e-mails zijn misschien wel het meest vervelende onderdeel van marketingtechnieken. Sommige mensen gebruiken ze ook voor het phishen van de persoonlijke gegevens van anderen.
Bedrijven voorkomen deze e-mails door algoritmen te gebruiken om spams te identificeren en te markeren. K betekent dat clustermethoden vrij effectief zijn geweest in het identificeren van spams. Ze kijken naar verschillende delen van de e-mail, zoals inhoud, afzender en header, om te bepalen of het om junk gaat. Het verbetert de nauwkeurigheid met een factor tien en beschermt mensen tegen phishing en andere digitale misdaden.
Laatste gedachten
Samenvattend blijft clustering meestal constant en geldt voor tal van scenario’s. U kunt nauwkeurige gedragsvoorspellingen doen door gebruik te maken van dit veelzijdige algoritme. Als je eenmaal een solide basislijn van gegroepeerde gegevens hebt ontwikkeld, zijn de mogelijkheden eindeloos.