Analiza skupień lub po prostu skupienie jest w zasadzie techniką uczenia się w sposób nieuświadomiony, która dzieli informacje na różne wyraźne skupiska lub zgromadzenia, przy czym celem końcowym jest to, aby informacje skupione w podobnych zgromadzeniach miały porównywalne właściwości, a informacje skupione w różnych zgromadzeniach miały różne właściwości w pewnym sensie. Zawiera ona szeroki wachlarz strategii zależnych od różnych postępów.
Na przykład K-Means (separacja pomiędzy ogniskami), Liking proliferation (separacja wykresów), Mean-move (separacja pomiędzy ogniskami), DBSCAN (separacja pomiędzy najbliższymi ogniskami), Gaussian blends (separacja Mahalanobis do ognisk), Unearthly grouping (separacja diagramów) i tak dalej.
Na bardzo podstawowym poziomie, wszystkie techniki łączenia w wiązki wykorzystują podobną metodologię, na przykład najpierw obliczamy symilacje, a następnie wykorzystujemy ją do łączenia informacji o skupieniach lub kępkach. Tutaj skoncentrujemy się na przestrzennym grupowaniu zastosowań w oparciu o grubość (Thickness based spatial grouping of uses with commotion (DBSCAN) bunching strategy).
Grupy są grubymi miejscami w przestrzeni informacyjnej, izolowanymi przez obszary o mniejszej grubości ognisk. Obliczenia DBSCAN opierają się na tym naturalnym pojęciu “pęczków” i “zamieszania”. Kluczem jest jednak to, że dla każdego celu grupy, obszar danego przejścia musi zawierać w każdym razie bazową liczbę ognisk.
Dlaczego DBSCAN?
Strategie paczkowania (K-implies, PAM bunching) oraz progresywna praca grupowania w celu znalezienia okrągłych lub łukowatych pęczków. Jako takie, są one rozsądne tylko dla konserwatywnych i dobrze izolowanych pęczków. Ponadto, są one dodatkowo poważnie uzależnione od bliskości zamieszania i anomalii w informacji.
Prawdziwe informacje mogą zawierać anomalie, jak –
I) Pęczki mogą mieć dowolny kształt, na przykład te, które pojawiły się pod spodem sylwetki.
ii) Informacje mogą zawierać małż.
Liczby podane poniżej pokazują indeks informacyjny zawierający grupy niewyklęte i anomalie/klamry. Biorąc pod uwagę takie informacje, k-implies doświadcza problemów związanych z obliczeniami w celu rozróżnienia tych wiązek o dowolnych kształtach.
Obliczenia DBSCAN wymagają dwóch parametrów –
W tym algorytmie mamy 3 rodzaje punktów danych.
Główny punkt: Punkt podstawowy jest punktem centralnym, jeśli ma więcej niż punktów MinPts w eps.
Punkt graniczny: Punkt, który ma mniej niż MinPts w eps, ale znajduje się w sąsiedztwie punktu bazowego.
Hałas lub wartość odstająca: Punkt, który nie jest punktem centralnym ani punktem granicznym.
eps: Charakteryzuje obszar wokół punktu informacyjnego, na przykład w przypadku, gdy separacja między dwoma punktami jest mniejsza lub równoważna z “eps” w tym momencie są one uważane za sąsiednie. W przypadku, gdy szacunek eps jest zbyt mały, w tym momencie ogromna część informacji będzie uważana za wyjątek. W przypadku niewielkiego prawdopodobieństwa, że zostanie ona wybrana w wyjątkowo dużym stopniu, w tym momencie grupy będą się konsolidować, a większa część informacji będzie się skupiać w podobnych pakietach. Jedno z podejść do odkrycia szacunku eps zależy od wykresu k-separacji.
Poniżej znajduje się algorytm klastrowania DBSCAN w pseudokodzie:
DBSCAN(zbiór danych, eps, MinPts){
# Indeks klastrowy
C = 1
dla każdego niesprawdzonego punktu p w zbiorze danych {\i0}
oznaczyć p jako odwiedzone
# find neighbors
Sąsiedzi N = znajdź sąsiednie punkty p
if |N|>=MinPts:
N = N U N’
jeśli p’ nie jest członkiem żadnego klastra:
dodać p’ do klastra C