Analiza skupień lub po prostu skupienie jest w zasadzie techniką uczenia się w sposób nieuświadomiony, która dzieli informacje na różne wyraźne skupiska lub zgromadzenia, przy czym celem końcowym jest to, aby informacje skupione w podobnych zgromadzeniach miały porównywalne właściwości, a informacje skupione w różnych zgromadzeniach miały różne właściwości w pewnym sensie. Zawiera ona szeroki wachlarz strategii zależnych od różnych postępów.

Na przykład K-Means (separacja pomiędzy ogniskami), Liking proliferation (separacja wykresów), Mean-move (separacja pomiędzy ogniskami), DBSCAN (separacja pomiędzy najbliższymi ogniskami), Gaussian blends (separacja Mahalanobis do ognisk), Unearthly grouping (separacja diagramów) i tak dalej.

Na bardzo podstawowym poziomie, wszystkie techniki łączenia w wiązki wykorzystują podobną metodologię, na przykład najpierw obliczamy symilacje, a następnie wykorzystujemy ją do łączenia informacji o skupieniach lub kępkach. Tutaj skoncentrujemy się na przestrzennym grupowaniu zastosowań w oparciu o grubość (Thickness based spatial grouping of uses with commotion (DBSCAN) bunching strategy).

Grupy są grubymi miejscami w przestrzeni informacyjnej, izolowanymi przez obszary o mniejszej grubości ognisk. Obliczenia DBSCAN opierają się na tym naturalnym pojęciu “pęczków” i “zamieszania”. Kluczem jest jednak to, że dla każdego celu grupy, obszar danego przejścia musi zawierać w każdym razie bazową liczbę ognisk.

Dlaczego DBSCAN?

Strategie paczkowania (K-implies, PAM bunching) oraz progresywna praca grupowania w celu znalezienia okrągłych lub łukowatych pęczków. Jako takie, są one rozsądne tylko dla konserwatywnych i dobrze izolowanych pęczków. Ponadto, są one dodatkowo poważnie uzależnione od bliskości zamieszania i anomalii w informacji.

Prawdziwe informacje mogą zawierać anomalie, jak –

I) Pęczki mogą mieć dowolny kształt, na przykład te, które pojawiły się pod spodem sylwetki.

ii) Informacje mogą zawierać małż.

Liczby podane poniżej pokazują indeks informacyjny zawierający grupy niewyklęte i anomalie/klamry. Biorąc pod uwagę takie informacje, k-implies doświadcza problemów związanych z obliczeniami w celu rozróżnienia tych wiązek o dowolnych kształtach.

Obliczenia DBSCAN wymagają dwóch parametrów –

W tym algorytmie mamy 3 rodzaje punktów danych.

Główny punkt: Punkt podstawowy jest punktem centralnym, jeśli ma więcej niż punktów MinPts w eps.

Punkt graniczny: Punkt, który ma mniej niż MinPts w eps, ale znajduje się w sąsiedztwie punktu bazowego.

Hałas lub wartość odstająca: Punkt, który nie jest punktem centralnym ani punktem granicznym.

eps: Charakteryzuje obszar wokół punktu informacyjnego, na przykład w przypadku, gdy separacja między dwoma punktami jest mniejsza lub równoważna z “eps” w tym momencie są one uważane za sąsiednie. W przypadku, gdy szacunek eps jest zbyt mały, w tym momencie ogromna część informacji będzie uważana za wyjątek. W przypadku niewielkiego prawdopodobieństwa, że zostanie ona wybrana w wyjątkowo dużym stopniu, w tym momencie grupy będą się konsolidować, a większa część informacji będzie się skupiać w podobnych pakietach. Jedno z podejść do odkrycia szacunku eps zależy od wykresu k-separacji.

Poniżej znajduje się algorytm klastrowania DBSCAN w pseudokodzie:

DBSCAN(zbiór danych, eps, MinPts){

# Indeks klastrowy

C = 1

dla każdego niesprawdzonego punktu p w zbiorze danych {\i0}

oznaczyć p jako odwiedzone

# find neighbors

Sąsiedzi N = znajdź sąsiednie punkty p

if |N|>=MinPts:

N = N U N’

jeśli p’ nie jest członkiem żadnego klastra:

dodać p’ do klastra C