K-znaczy zgrupowanie w nauce maszynowej (K Means Clustering)

K oznacza, że grupowanie jest formą uczenia się bez nadzoru. Naukowcy używają go, gdy mają mnóstwo nieoznaczonych danych (dowolnych informacji bez zdefiniowanych grup lub kategorii). K oznacza, że celem klastrowania jest wyszukiwanie danych dla różnych grup. Zmienna alfabetyczna “K” powinna reprezentować każdą z grup. W przeciwieństwie do kilku algorytmów, ten działa wielokrotnie, aby przypisać każdy punkt danych do grupy K, biorąc pod uwagę cechy, którymi dysponuje.
Punkty danych są grupowane na podstawie podobieństwa ich cech. Oto kilka wyników algorytmu K oznaczającego grupowanie punktów danych:
Zamiast definiować grupy przed badaniem danych, algorytm ten pozwala na wyszukiwanie i zrozumienie grup utworzonych organicznie. W tym artykule znajduje się sekcja zatytułowana “Wybór K”. Opisuje ona, w jaki sposób można określić liczbę grup.
Centroid każdego klastra jest zbiorem wartości definiujących grupy wynikowe. Analiza funkcji centroida może pomóc w interpretacji typu grupy reprezentowanej przez każdy klaster.
Dane naukowcy używają K oznacza algorytm klastrowania w celu identyfikacji grup, którym brakuje etykiet danych. Procedura ta pomaga potwierdzić różne założenia biznesowe dotyczące typów istniejących grup. Można jej również użyć do wykrycia nieznanych grup z opracowanych zbiorów danych. Gdy algorytm zakończy swój proces i określi grupę, można łatwo przypisać nowe dane do odpowiedniej grupy. K oznacza, że grupowanie jest bardzo wszechstronnym algorytmem, który pomaga w praktycznie każdym typie grupowania. Oto kilka przykładów:
K oznacza, że algorytm klastrowania generuje ostateczne wyniki przy użyciu iteracyjnych technik uszlachetniania. Zestaw danych i liczba klastrów to dane wejściowe algorytmu. Ponadto, zbiór danych jest grupą cech dla każdego punktu danych. Jak wspomniano wcześniej, algorytm rozpoczyna się od wstępnych oszacowań K centroida. Mogą być one wybierane losowo lub generowane losowo z zestawu. Następnie algorytm powtarza następujące kroki.
Każdy centroid określa klaster. W tej procedurze, każdy punkt danych jest przypisany do najbliższego centroidu znajdującego się na jego odległości euklidesowej.
Algorytm oblicza centroidy w tym kroku. Robi to poprzez zebranie średniej z każdego punktu danych przydzielonego do skupiska centroidów.
Algorytm powtarza kroki pierwszy i drugi do momentu spełnienia kryterium zatrzymania. Algorytm K oznacza, że algorytmy klastrowania gwarantują dokładne wyniki. Jednak uzyskany wynik może nie być czasem najbardziej pożądany. Analiza wielu algorytmów z losowo wybranymi centroidami wyjściowymi może dać lepszy wynik.
K oznacza, że głównym celem tworzenia klastrów jest znalezienie etykiet zestawów danych i klastrów dla określonych, wstępnie wybranych Ks. Dlatego też użytkownicy muszą uruchomić ten algorytm dla wielu różnych wartości K i analizować każdy wynik obok siebie, aby określić liczbę klastrów danych. Nie istnieje żadna konkretna metoda określenia dokładnej wartości Ks. Jednakże, nadal można uzyskać dokładne wartości szacunkowe przy użyciu technik wymienionych poniżej.
Ponadto popularną metryką powszechnie stosowaną do porównywania wyników dla wielu wartości K jest średnia odległość w środku centroidu klastra i jego punktów danych. Ponieważ zwiększenie liczby klastrów będzie minimalizować odległość pomiędzy punktami danych, zwiększenie liczby klastrów zmniejszy odległość punktów danych za każdym razem. Rozszerzenie wartości K zmniejszy metrykę i może doprowadzić do jej obniżenia nawet do zera, o ile wartość K jest zbliżona do ilości punktów danych.
Tak więc, nie można używać tej metryki jako pojedynczego celu. Alternatywnie, można wykreślić średnią odległość centroida jako funkcja K, gdzie tempo spadku gwałtownie się zmienia. To może zapewnić przybliżoną odpowiedź na K. Liczne inne techniki mogą pomóc walidacji K. Oto lista niektórych popularnych metod stosowanych przez doświadczonych naukowców danych.
Dodatkowo, obserwacja rozkładu punktów danych w różnych grupach daje cenny wgląd w to, jak algorytm dzieli dane dla Ks.
Feature engineering to proces, w którym wykorzystuje się wiedzę z dziedziny do wybierania dokładnych metryk danych. Ludzie wykorzystują inżynierię obiektów do określenia prawidłowych metryk w swoich algorytmach uczenia się maszyn. Uczciwie byłoby twierdzić, że ten typ inżynierii odgrywa krytyczną rolę w algorytmie K oznaczającym grupowanie. Pomaga on rozróżnić zbiory występujące w sposób naturalny, nie sprawiając żadnych problemów.
Dane kategoryczne, takie jak typy przeglądarek, kraje, płeć muszą być oddzielone lub zakodowane w sposób, który dobrze łączy się z algorytmem. Transformacje cech są szczególnie pomocne przy reprezentowaniu współczynników zamiast pomiarów. Jest to bardzo pomocne przy normalizowaniu danych.
K oznacza, że tworzenie klastrów staje się coraz bardziej popularne w różnych branżach. Oto kilka popularnych w świecie rzeczywistym zastosowań tego rewolucyjnego algorytmu.
Grupowanie jest dość korzystne dla silników rekomendacyjnych. Możesz skorzystać z tego algorytmu i polecać piosenki lub filmy swoim znajomym w zależności od ich preferencji.
K oznacza, że grupowanie jest doskonałe do segmentacji zdjęć. Programy ilustracyjne i edytujące mogą korzystać z atrybutów segmentacji obrazu tego algorytmu.
Grupowanie może pomóc w zgrupowaniu wielu dokumentów w krótkim czasie. Jest to szczególnie pomocne dla osób posiadających wiele dokumentów zawierających różne informacje.
Wiele gałęzi przemysłu korzysta z K, co oznacza, że segmentacja klientów w klastrach usprawnia ich procesy. Sprzedaż, reklama, sport, e-handel, bankowość i telekomunikacja to niektóre dziedziny, które korzystają z tego algorytmu.