Uniwersalnie użyteczny

Termin “analiza skupień” (po raz pierwszy użyty przez Tryona, 1939) obejmuje różne obliczenia i techniki gromadzenia obiektów o charakterze porównawczym w poszczególnych klasyfikacjach. Ogólnym pytaniem, z którym stykają się analitycy w wielu regionach, jest sposób porządkowania obserwowanych informacji w znaczące struktury, czyli tworzenie klasyfikacji naukowych. Na koniec dnia badanie pęczków jest aparatem do badania informacji zwiadowczych, którego celem jest ułożenie różnych artykułów w pęczki w taki sposób, aby poziom relacji między dwoma przedmiotami był maksymalny w przypadku, gdy mają one miejsce o podobnym gromadzeniu i ogólnie znikomy. Biorąc pod uwagę powyższe, badanie grupowe może być wykorzystywane do wyszukiwania struktur informacji bez konieczności udzielania wyjaśnień/zrozumienia. W ostatecznym rozrachunku badanie grupowe polega zasadniczo na znajdowaniu struktur w informacjach bez wyjaśniania, dlaczego one istnieją.

Udaje nam się grupować praktycznie w każdej części dnia, z dnia na dzień. Na przykład, zebranie hamburgerów z podobnym stołem w kawiarni może być postrzegane jako grupa osób. W lokalach gastronomicznych znajdują się rzeczy o porównywalnym charakterze, na przykład różne rodzaje mięsa lub warzyw, które są pokazane w odpowiadających im miejscach lub w ich pobliżu. Istnieje nieobliczalna liczba modeli, w których grupowanie zakłada znaczącą pracę. Dla przykładu, badacz musi ułożyć różne rodzaje stworzeń zanim możliwe będzie znaczące zobrazowanie kontrastów pomiędzy stworzeniami. Zgodnie z nowoczesnym systemem stosowanym w biologii, człowiek należy do naczelnych, ssaków, płetwonogich, kręgowców i zwierząt. Zauważcie, że im wyższy stopień całościowy, tym mniej porównawcze są osobniki w oddzielnej klasie. Człowiek ma więcej wspólnego ze wszystkimi innymi ssakami naczelnymi (np. małpami) niż z bardziej “odległymi” członkami ssaków (np. psami), itp. W celu zapoznania się z ogólnymi klasami strategii badania grupowego, patrz: Łączenie (Tree Bunching), Łączenie dwukierunkowe (Square Grouping), oraz k-Means Bunching. Mówiąc wprost, bez względu na to, jaki jest Twój pomysł na biznes, czasem natkniesz się na problem grupowania o jakiejś strukturze.

Test na rzeczywistą wysokość

Zwróć uwagę, że powyższe wymiany nawiązują do grupowania obliczeń i nie wspominają nic o badaniu istotności faktów. Prawdę mówiąc, badanie grupowe nie jest tak bardzo zwykłym, mierzalnym testem, jak “zbieranie” różnych obliczeń, które “układają obiekty w pęczki, jak to się dzieje wokół charakterystycznego podobieństwa”. Chodzi o to, że nie jest to normalne dla niektórych innych systemów faktograficznych, strategie badania grupowego są w większości przypadków wykorzystywane, gdy nie mamy żadnych z wcześniejszych spekulacji, a jednak znajdują się one jeszcze w okresie eksploracji naszego badania. Jakby tego było mało, badanie grupowe znajduje “najbardziej krytyczny układ, jaki można sobie wyobrazić”. Tak więc, mierzalne testowanie istotności nie jest tutaj naprawdę odpowiednie, nawet w sytuacjach, gdy p-plany są rozliczane (jak w grupowaniu k-implies).

Łączenie (grupowanie drzew)

Różnorodne piętrowe drzewo

Środki separacji

Zasady łączenia lub łączenia

Uzasadnienie ogólne

Model w Uniwersalnej Prezentacji przedstawia cel obliczenia połączenia lub grupowania drzew. Powodem tego obliczenia jest konsolidacja obiektów (np. stworzeń) w coraz większe pęczki, z wykorzystaniem pewnej proporcji bliskości lub separacji. Konsekwencją tego rodzaju grupowania jest różnopoziomowe drzewo.

Różnorodne, wielopoziomowe DREWO

Rozważmy parzystą, wielopoziomową działkę z drzewami (patrz diagram poniżej), po lewej stronie działki, zaczynamy od każdego elementu w klasie niezależnej od innych. Obecnie wyobrażamy sobie, że w małych postępach “odwijamy” nasze podstawy dotyczące tego, co jest, a co nie jest jedyne w swoim rodzaju. Innymi słowy, obniżamy naszą przewagę w odniesieniu do wyboru, kiedy ogłosić co najmniej dwa przedmioty, aby być osobnikami z podobnej grupy.

W ten sposób łączymy coraz większą liczbę przedmiotów i łączymy coraz większe grupy coraz to innych, stopniowo zmieniających się składników. W końcu, w ostatniej kolejności, wszystkie artykuły są łączone. Na tych działkach parzysty czop oznacza separację połączeń (na pionowych działkach Icicle, pionowa piasta oznacza separację połączeń). W ten sposób, dla każdej piasty na wykresie (gdzie kształtowana jest inna pęczęczka), możemy wykorzystać standardową separację, przy której poszczególne elementy zostały połączone razem w inną pojedynczą grupę. W momencie, w którym informacja zawiera jednoznaczną “strukturę” aż do grup artykułów, które są do siebie podobne, w tym momencie struktura ta będzie regularnie odzwierciedlana na różnych poziomach drzewa jako poszczególne gałęzie. Jako efekt uboczny skutecznego badania techniką łączenia, możemy wyróżnić pęczki (gałęzie) i przetłumaczyć te gałęzie.

ŚRODKI Separacji

Technika łączenia lub wiązania drzew wykorzystuje różnice (podobieństwa) lub podziały między obiektami podczas kształtowania grup. Podobieństwa to wiele decyzji, które wypełniają się jako kryteria zbierania lub izolowania rzeczy. W poprzednim modelu standardem przy zbieraniu różnych kolacji było to, czy miały one podobny stół, czy też nie. Oddzielenia te (podobieństwa) mogą być oparte na samotnym pomiarze lub różnych pomiarach, przy czym każdy pomiar mówi o standardzie lub warunku gromadzenia obiektów. Na przykład, jeśli jakoś zdarzyło nam się zgrać szybkie pożywienie, moglibyśmy wziąć pod uwagę ilość kalorii, które zawierają, ich wartość, emocjonalną ocenę smaku, i tak dalej. Najbardziej przejrzystą metodą przetwarzania separacji pomiędzy obiektami w wielowymiarowej przestrzeni jest rejestracja separacji euklidesowych. W przypadku, gdy mamy do czynienia z przestrzenią kilkuwymiarową, miarą tą jest rzeczywista geometryczna separacja pomiędzy obiektami w przestrzeni (tj. jakby oszacowana za pomocą linijki). W każdym razie, obliczenie łączące nie “daje drugiej myśli”, niezależnie od tego, czy separacje, które są dla niego “pożywką”, są separacjami rzeczywistymi, czy też jakąś inną określoną proporcją separacji, która staje się coraz ważniejsza dla analityka; a wybór właściwej strategii dla danego zastosowania zależy od specjalisty.

Separacja euklidesowa. Jest to prawdopodobnie najczęściej wybierany rodzaj separacji. Jest to po prostu separacja geometryczna w przestrzeni wielowymiarowej. Jest ona przetwarzana jako:

odległość(x,y) = {i (xi – yi)2 }½

Należy zauważyć, że separacje euklidesowe (i euklidesowe kwadratowe) są zazwyczaj przetwarzane z informacji surowych, a nie z informacji zinstytucjonalizowanych. Technika ta ma pewne punkty centralne (np. na rozdzielenie między dwoma dowolnymi pozycjami nie ma wpływu rozszerzenie nowych artykułów do badania, co może stanowić wyjątek). Tak czy inaczej, na podziały mogą mieć istotny wpływ kontrasty w skali pomiędzy pomiarami, od których podziały te są rejestrowane. Na przykład, w przypadku, gdy jeden z pomiarów oznacza celową długość w centymetrach, a Państwo w tym momencie przeliczają ją na milimetry (dublując jakości o 10), na kolejne euklidesowe lub kwadratowe separacje euklidesowe (uzyskane z różnych pomiarów) można wywrzeć niewiarygodny wpływ (tzn. jednostronny przez te pomiary, które mają większą skalę), a zatem konsekwencje badań grupowych mogą być zupełnie inne. Wielką praktyką jest zmiana pomiarów tak, aby miały one porównywalne skale.

Separacja euklidesowa kwarcowa. Być może trzeba będzie kwadratować standardową separację euklidesową tak, aby w logiczny sposób bardziej obciążać obiekty, które są dalej rozdzielane. Separacja ta jest rejestrowana jako (patrz dodatkowo notatka w poprzednim przejściu):

Separacja miasto-plac (Manhattan). Rozdzielenie to jest w zasadzie normalnym kontrastem poprzecznym w stosunku do pomiarów. Przez większość czasu, ta miara separacji daje takie rezultaty jak prosta separacja euklidesowa. Należy jednak pamiętać, że w tym pomiarze wpływ pojedynczych ogromnych kontrastów (anomalii) jest ukryty (ponieważ nie są one kwadratowe). Separacja miasto-kwadratowa jest obliczana jako:

odległość(x,y) = I |xi – yi|

Separacja Chebycheva. Ta miara separacji może być odpowiednia w sytuacjach, gdy musimy scharakteryzować dwa artykuły jako “różne” w przypadku, gdy są one zróżnicowane na którymś z pomiarów. Separacja Czebiejewa jest rozumiana jako:

distance(x,y) = Maximum|xi – yi|

Oddzielenie zasilania. Od czasu do czasu może być konieczne zwiększenie lub zmniejszenie wagi dynamicznej, która jest nakładana na pomiary, na których poszczególne artykuły są zupełnie różne. Można to osiągnąć poprzez separację mocy. Separacja mocy jest rozumiana jako:

odległość(x,y) = (I |xi – yi|p)1/r

gdzie r i p są parametrami charakterystycznymi dla klienta. Kilka obliczeń modelowych może pokazać, jak ta miara “idzie dalej”. Parametr p kontroluje wagę dynamiczną, która jest ustawiana na kontrastach na poszczególnych pomiarach, parametr r kontroluje wagę dynamiczną, która jest ustawiana na większych kontrastach pomiędzy obiektami. W przypadku, gdy r i p są równoważne 2, w tym momencie separacja ta jest równoważna separacji euklidesowej.

Różnica procentowa. Miara ta jest szczególnie cenna, jeśli informacje dla pomiarów włączonych do badania są niesymetryczne. Separacja ta jest obliczana jako:

odległość(x,y) = (liczba xi yi)/I