Die Clustering-Analyse oder einfach Clustering ist im Wesentlichen eine Technik des ungestützten Lernens, bei der die Informationen auf verschiedene explizite Klumpen oder Zusammenstellungen aufgeteilt werden, mit dem Endziel, dass die Informationsschwerpunkte in ähnlichen Zusammenstellungen vergleichbare Eigenschaften haben und die Informationsschwerpunkte in verschiedenen Zusammenstellungen in gewisser Weise unterschiedliche Eigenschaften haben. Sie enthält eine breite Palette von Strategien, die von verschiedenen Fortschritten abhängen.

Zum Beispiel K-Means (Trennung zwischen Schwerpunkten), Liking proliferation (Diagrammtrennung), Mean-move (Trennung zwischen Schwerpunkten), DBSCAN (Trennung zwischen engsten Schwerpunkten), Gaussian blends (Mahalanobis-Trennung zu Schwerpunkten), Unearthly grouping (Diagrammtrennung) und so weiter.

Auf einer sehr grundlegenden Ebene verwenden alle Bündelungstechniken eine ähnliche Methodik, z.B. berechnen wir zuerst Similituden und verwenden sie danach, um die Informationen zu bündeln, die sich auf Sammlungen oder Klumpen konzentrieren. Hier konzentrieren wir uns auf die auf der Dicke basierende räumliche Gruppierung von Nutzungen mit der Bündelungsstrategie DBSCAN (Commotion based spatial grouping of uses with commotion).

Gruppen sind dicke Schauplätze im Informationsraum, die durch Bereiche mit geringerer Fokusdicke isoliert sind. Die DBSCAN-Berechnung hängt von dieser natürlichen Vorstellung von “Bündeln” und “Unruhe” ab. Der Schlüssel ist jedoch, dass für jeden Zweck einer Gruppe der Bereich eines bestimmten Sweeps auf jeden Fall eine Basisanzahl von Fokussen enthalten muss.

Warum DBSCAN?

Parzellierungsstrategien (K-Zeilen, PAM-Bündelung) und progressive Gruppierungsarbeit zum Auffinden von kreisförmig geformten Büscheln oder gewölbten Büscheln. Als solche sind sie nur für konservative und gut isolierte Bündel sinnvoll. Darüber hinaus werden sie zusätzlich durch die Nähe von Unruhe und Anomalien in der Information stark beeinflusst.

Echte Informationen können Anomalien enthalten, wie –

I) Die Bündel können eine beliebige Form haben, z.B. die in der Abbildung unten dargestellten.

ii) Informationen können Lärm enthalten.

die Zahlen unten zeigen einen informativen Index, der nichtkonvexe Gruppen und Anomalien/Geräusche enthält. Angesichts solcher Informationen ergeben sich für k-implies Berechnungserfahrungen Probleme bei der Unterscheidung dieser Bündel mit beliebigen Formen.

Die DBSCAN-Berechnung erfordert zwei Parameter –

In diesem Algorithmus haben wir 3 Arten von Datenpunkten.

Kernpunkt: Ein Punkt ist ein Kernpunkt, wenn er mehr als MinPts-Punkte innerhalb von eps hat.

Grenzübergang: Ein Punkt, der weniger als MinPts innerhalb von eps hat, aber in der Nachbarschaft eines Kernpunktes liegt.

Lärm oder Ausreißer: Ein Punkt, der kein Kern- oder Grenzpunkt ist.

eps: Sie charakterisiert den Bereich um einen Informationspunkt herum, z.B. für den Fall, dass der Abstand zwischen zweien geringer oder äquivalent zu ‘eps’ ist und sie an diesem Punkt als Nachbarn betrachtet werden. Für den unwahrscheinlichen Fall, dass die Wertschätzung des eps zu gering ist, werden an diesem Punkt große Teile der Information als Ausnahme betrachtet. Für den unwahrscheinlichen Fall, dass sie extrem groß ist, werden sich die Gruppen zu diesem Zeitpunkt konsolidieren und der größte Teil der Informationsschwerpunkte wird in ähnlichen Bündeln liegen. Ein Ansatz, um die Wertschätzung der Eps zu entdecken, hängt vom k-Trennungsdiagramm ab.

Unten sehen Sie den DBSCAN-Clustering-Algorithmus in Pseudocode:

DBSCAN(Datensatz, eps, MinPts){

# Cluster-Index

C = 1

für jeden nicht besuchten Punkt p im Datensatz {

         p als besucht markieren

         # Nachbarn finden

         Nachbarn N = finden Sie die Nachbarpunkte von p

         wenn |N|>=MinPts:

             N = N U N’

             wenn p’ nicht Mitglied eines Clusters ist:

                 p’ zum Cluster C hinzufügen