Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

K oznacza, że grupowanie jest formą uczenia się bez nadzoru. Naukowcy używają go, gdy mają mnóstwo nieoznaczonych danych (dowolnych informacji bez zdefiniowanych grup lub kategorii). K oznacza, że celem klastrowania jest wyszukiwanie danych dla różnych grup. Zmienna alfabetyczna “K” powinna reprezentować każdą z grup. W przeciwieństwie do kilku algorytmów, ten działa wielokrotnie, aby przypisać każdy punkt danych do grupy K, biorąc pod uwagę cechy, którymi dysponuje.

Punkty danych są grupowane na podstawie podobieństwa ich cech. Oto kilka wyników algorytmu K oznaczającego grupowanie punktów danych:

  • Możesz użyć centrum klastrów K do oznaczenia nowych danych.
  • Każdy klaster posiada przypisane do niego etykiety danych szkoleniowych.

Zamiast definiować grupy przed badaniem danych, algorytm ten pozwala na wyszukiwanie i zrozumienie grup utworzonych organicznie. W tym artykule znajduje się sekcja zatytułowana “Wybór K”. Opisuje ona, w jaki sposób można określić liczbę grup.

Centroid każdego klastra jest zbiorem wartości definiujących grupy wynikowe. Analiza funkcji centroida może pomóc w interpretacji typu grupy reprezentowanej przez każdy klaster.

Zastosowania biznesowe klastra K Znaczy Klaster

Dane naukowcy używają K oznacza algorytm klastrowania w celu identyfikacji grup, którym brakuje etykiet danych. Procedura ta pomaga potwierdzić różne założenia biznesowe dotyczące typów istniejących grup. Można jej również użyć do wykrycia nieznanych grup z opracowanych zbiorów danych. Gdy algorytm zakończy swój proces i określi grupę, można łatwo przypisać nowe dane do odpowiedniej grupy. K oznacza, że grupowanie jest bardzo wszechstronnym algorytmem, który pomaga w praktycznie każdym typie grupowania. Oto kilka przykładów:

Anomalie plamiste lub Boty

  • Oddzielenie botów od użytecznych grup działania
  • Algorytm pomaga w oczyszczeniu wykrywalności odchyłek poprzez prawidłową aktywność grupy.

Klasyfikacja pomiarów czujników

  • Wykrywanie zdjęć grupowych
  • Identyfikacja grup monitorowania zdrowia
  • Oddzielenie dźwięku
  • Wykrywanie różnych działań w czujnikach ruchu

Kategoryzacja zapasów

  • Zapasy grupowe z metryką produkcji
  • Zapasy grupowe z działalnością handlową

Segmentacja behawioralna

  • Definiowanie osób zainteresowanych
  • Tworzenie profili opartych na monitorowaniu aktywności
  • Segmentacja z wykorzystaniem historii zakupów
  • Tworzenie segmentów poprzez ocenianie aktywności na platformach, stronach internetowych i aplikacjach

Zrozumienie algorytmu

K oznacza, że algorytm klastrowania generuje ostateczne wyniki przy użyciu iteracyjnych technik uszlachetniania. Zestaw danych i liczba klastrów to dane wejściowe algorytmu. Ponadto, zbiór danych jest grupą cech dla każdego punktu danych. Jak wspomniano wcześniej, algorytm rozpoczyna się od wstępnych oszacowań K centroida. Mogą być one wybierane losowo lub generowane losowo z zestawu. Następnie algorytm powtarza następujące kroki.

Krok przydzielania danych

Każdy centroid określa klaster. W tej procedurze, każdy punkt danych jest przypisany do najbliższego centroidu znajdującego się na jego odległości euklidesowej.

Krok aktualizacji centroida

Algorytm oblicza centroidy w tym kroku. Robi to poprzez zebranie średniej z każdego punktu danych przydzielonego do skupiska centroidów.

Algorytm powtarza kroki pierwszy i drugi do momentu spełnienia kryterium zatrzymania. Algorytm K oznacza, że algorytmy klastrowania gwarantują dokładne wyniki. Jednak uzyskany wynik może nie być czasem najbardziej pożądany. Analiza wielu algorytmów z losowo wybranymi centroidami wyjściowymi może dać lepszy wynik.

Wybranie kryterium K

K oznacza, że głównym celem tworzenia klastrów jest znalezienie etykiet zestawów danych i klastrów dla określonych, wstępnie wybranych Ks. Dlatego też użytkownicy muszą uruchomić ten algorytm dla wielu różnych wartości K i analizować każdy wynik obok siebie, aby określić liczbę klastrów danych. Nie istnieje żadna konkretna metoda określenia dokładnej wartości Ks. Jednakże, nadal można uzyskać dokładne wartości szacunkowe przy użyciu technik wymienionych poniżej.

Ponadto popularną metryką powszechnie stosowaną do porównywania wyników dla wielu wartości K jest średnia odległość w środku centroidu klastra i jego punktów danych. Ponieważ zwiększenie liczby klastrów będzie minimalizować odległość pomiędzy punktami danych, zwiększenie liczby klastrów zmniejszy odległość punktów danych za każdym razem. Rozszerzenie wartości K zmniejszy metrykę i może doprowadzić do jej obniżenia nawet do zera, o ile wartość K jest zbliżona do ilości punktów danych.

Tak więc, nie można używać tej metryki jako pojedynczego celu. Alternatywnie, można wykreślić średnią odległość centroida jako funkcja K, gdzie tempo spadku gwałtownie się zmienia. To może zapewnić przybliżoną odpowiedź na K. Liczne inne techniki mogą pomóc walidacji K. Oto lista niektórych popularnych metod stosowanych przez doświadczonych naukowców danych.

  • G-znaczy algorytm
  • Metoda sylwetkowa
  • Teoretyczna metoda informacji o skoku
  • Kryteria informacyjne
  • Metoda walidacji krzyżowej

Dodatkowo, obserwacja rozkładu punktów danych w różnych grupach daje cenny wgląd w to, jak algorytm dzieli dane dla Ks.

Rola Inżynierii Cech w klastrze K oznacza klaster

Feature engineering to proces, w którym wykorzystuje się wiedzę z dziedziny do wybierania dokładnych metryk danych. Ludzie wykorzystują inżynierię obiektów do określenia prawidłowych metryk w swoich algorytmach uczenia się maszyn. Uczciwie byłoby twierdzić, że ten typ inżynierii odgrywa krytyczną rolę w algorytmie K oznaczającym grupowanie. Pomaga on rozróżnić zbiory występujące w sposób naturalny, nie sprawiając żadnych problemów.

Dane kategoryczne, takie jak typy przeglądarek, kraje, płeć muszą być oddzielone lub zakodowane w sposób, który dobrze łączy się z algorytmem. Transformacje cech są szczególnie pomocne przy reprezentowaniu współczynników zamiast pomiarów. Jest to bardzo pomocne przy normalizowaniu danych.

K Oznacza tworzenie klastrów zastosowań w świecie rzeczywistym.

K oznacza, że tworzenie klastrów staje się coraz bardziej popularne w różnych branżach. Oto kilka popularnych w świecie rzeczywistym zastosowań tego rewolucyjnego algorytmu.

Zalecenie Silniki

Grupowanie jest dość korzystne dla silników rekomendacyjnych. Możesz skorzystać z tego algorytmu i polecać piosenki lub filmy swoim znajomym w zależności od ich preferencji.

Segmentacja obrazu

K oznacza, że grupowanie jest doskonałe do segmentacji zdjęć. Programy ilustracyjne i edytujące mogą korzystać z atrybutów segmentacji obrazu tego algorytmu.

Tworzenie klastrów dokumentów

Grupowanie może pomóc w zgrupowaniu wielu dokumentów w krótkim czasie. Jest to szczególnie pomocne dla osób posiadających wiele dokumentów zawierających różne informacje.

Segmentacja klientów

Wiele gałęzi przemysłu korzysta z K, co oznacza, że segmentacja klientów w klastrach usprawnia ich procesy. Sprzedaż, reklama, sport, e-handel, bankowość i telekomunikacja to niektóre dziedziny, które korzystają z tego algorytmu.