Wymiarowość Spadek

W przypadku, gdy miałeś już okazję pracować z zestawem danych z wieloma podkreśleniami, możesz zrozumieć, że tak trudno jest zrozumieć lub zbadać związki między podkreśleniami. Sprawia to, że procedura EDA jest kłopotliwa, jak również wpływa na prezentację modelu SI, ponieważ istnieje prawdopodobieństwo, że możesz prześcignąć swój model lub uszkodzić część podejrzeń w obliczeniach, podobnie jak autonomia pasemka przy bezpośrednim nawrocie. Jest to miejsce, w którym następuje spadek wymiarowości. W AI, spadek wymiarowości jest sposobem na zmniejszenie liczby nieregularnych czynników wykonalnych przez uzyskanie wielu czynników head. Zmniejszając składnik przestrzeni pierwiastka, masz mniej powiązań między podkreśleniami do rozważenia, które mogą być zbadane i przedstawione skutecznie, a ponadto jesteś bardziej awersji do overfit modelu.

Spadek wymiarowości może być osiągnięty w sposób towarzyszący:

Highlight End: Zmniejszasz przestrzeń elementu poprzez rezygnację z podkreślenia. Ma to jednak znaczenie, ponieważ nie uzyskujesz żadnych danych z tych wyróżnionych elementów, które upuściłeś.

Determinacja Highlight: Stosujesz kilka testów merytorycznych, aby uszeregować je zgodnie z ich znaczeniem, a następnie wybierasz podzbiór najważniejszych punktów dla swojej pracy. To znowu doświadcza nieszczęścia związanego z danymi i jest mniej miarodajne, ponieważ różne testy dają różne oceny ważności najważniejszych punktów. Więcej informacji na ten temat można znaleźć tutaj.

Ekstrakcja najważniejszych punktów: Tworzysz nowe, wolne pasemka, gdzie każdy nowy, autonomiczny komponent jest mieszanką każdego ze starych, autonomicznych pasemek. Systemy te można dodatkowo podzielić na procedury bezpośredniego i nie prostego zmniejszania wymiarów.

Badanie części głównej (PCA)

Head Part Investigation lub PCA jest strategią wydobycia komponentów prostych. Odgrywa ona bezpośrednią mapę informacji do przestrzeni niższego wymiaru, tak aby zwiększyć fluktuacje informacji w obrazie niższego wymiaru. Odbywa się to poprzez obliczanie eigenwektorów z kowariancji. Wektory własne, które odnoszą się do największych wartości własnych (głównych części), są wykorzystywane do odtworzenia godnej uwagi części różnicy pierwszych informacji.

Mówiąc prościej, PCA konsoliduje informacje, które zawierają, mając na uwadze pewien cel, że można zrezygnować z najmniej istotnego składnika, zachowując jednocześnie najważniejsze elementy całości najważniejszych informacji. Dodatkową zaletą jest to, że każdy z nowych wyróżnionych elementów lub segmentów wykonanych po PCA jest w całości niezależny od siebie.

t-Dispersed Stochastic Neighbor Implanting (t-SNE)

t-Dispersed Stochastic Neighbor Implanting (t-SNE) jest niekierunkową strategią zmniejszania wymiarowości, która jest szczególnie odpowiednia dla percepcji wysokowymiarowych zbiorów danych. Jest ona szeroko stosowana w obsłudze obrazów, NLP, informacji genomowej i przygotowaniu dyskursu. Aby zachować prostotę, oto zwięzły schemat pracy t-SNE:

Obliczenia rozpoczynają się od obliczenia prawdopodobieństwa bliskości ognisk w przestrzeni wysokowymiarowej i określenia prawdopodobieństwa porównywalności ognisk w powiązanej przestrzeni niskowymiarowej. Prawdopodobieństwo bliskości ognisk jest określane jako warunkowe prawdopodobieństwo, że punkt A wybrałby punkt B jako swojego sąsiada, gdyby sąsiedzi zostali wybrani w odniesieniu do ich prawdopodobieństwa grubości pod kątem gazy (typowe rozpowszechnienie) skupionej w punkcie A.

W tym momencie próbuje on ograniczyć kontrast pomiędzy tymi restrykcyjnymi prawdopodobieństwami (lub symulacjami) w przestrzeni wyższego i niższego wymiaru, aby uzyskać idealny obraz informacji, która skupia się w przestrzeni niższego wymiaru.

W celu ilościowego określenia minimalizacji agregatu rozróżnienia prawdopodobieństwa warunkowego t-SNE ogranicza całkowitą rozbieżność Kullback-Leiblera w ogólnych informacjach koncentruje się na wykorzystaniu strategii spadku kąta.

Należy zauważyć, że różnica Kullback-Leiblera lub unikalność KL jest proporcją tego, jak jeden wektor rozproszenia prawdopodobieństwa zmienia się z drugiego, przewidywanego zawłaszczenia prawdopodobieństwa.

Osoby, które są zainteresowane poznaniem punkt po punkcie pracy obliczeniowej mogą nawiązać do tej pracy badawczej.

W łatwiejszym ujęciu, t-Disseminated stochastic neighbor implanting (t-SNE) ogranicza różnicę pomiędzy dwoma środkami: transportem, który mierzy parami podobieństwa obiektów informacyjnych i cyrkulacją, która mierzy parami symilacje porównywania ognisk niskowymiarowych w instalacji.

W ten sposób t-SNE mapuje wielowymiarowe informacje do przestrzeni niższego rzędu i stara się odkryć wzory w informacji poprzez rozróżnienie obserwowanych wiązek zależnych od bliskości informacji, które koncentrują się na różnych wyróżnikach. W każdym razie, po tej procedurze, podświetlenia informacji nie są już nigdy więcej rozpoznawalne i nie można uzależniać ich od wydajności t-SNE. Odtąd jest to w większości przypadków metoda badania informacji i przedstawiania informacji.

Umowa o partnerstwie i współpracy w porównaniu z oddelegowanymi ekspertami krajowymi

Chociaż zarówno PCA, jak i t-SNE mają swoje własne preferencje i obciążenia, można zauważyć pewne kluczowe kontrasty między PCA i t-SNE jako dążenia:

t-SNE jest kosztowne obliczeniowo i może trwać kilka godzin w przypadku milionów przykładowych zbiorów danych, w przypadku których zawarcie umowy o partnerstwie i współpracy następuje od razu lub kilka minut.

PCA jest procedurą numeryczną, jednak t-SNE jest procedurą probabilistyczną.

Obliczenia zmniejszające bezpośrednią wymiarowość, podobnie jak PCA, skupiają się na ustawianiu unikalnych ognisk informacji daleko od siebie oddalonych w niższym obrazie pomiarowym. Tak czy inaczej, aby mówić o wysokich informacjach pomiarowych przy niskich pomiarach, nie prostych złożonych, fundamentalne znaczenie ma to, aby informacje porównawcze koncentrowały się blisko siebie, co jest czymś, co t-SNE nie jest PCA.

Przez pewien czas w t-SNE różne przebiegi z podobnymi hiperparametrami mogą dostarczać różnych wyników, w związku z czym przed dokonaniem jakiejkolwiek oceny z t-SNE należy zapoznać się z różnymi wykresami, podczas gdy nie ma to miejsca w przypadku PCA.

Ponieważ PCA jest obliczeniem prostym, nie ma możliwości rozszyfrowania skomplikowanego wielomianowego połączenia między podkreśleniami, podczas gdy t-SNE jest wykonywane w celu dokładnego uchwycenia tego połączenia.