Co to jest PCA?

Załóżmy, że trzeba przewidzieć, jaka będzie całkowita produkcja krajowa (produkt krajowy brutto) USA w 2017 roku. Masz mnóstwo dostępnych danych: produkt krajowy brutto Stanów Zjednoczonych za główny kwartał 2017 r., produkt krajowy brutto Stanów Zjednoczonych za cały rok 2016, 2015, itd. Masz dostępny wskaźnik pieniężny, podobny do wskaźnika bezrobocia, wskaźnika ekspansji, itp. Masz informacje o rejestracji w USA z 2010 roku oceniające, jaka liczba Amerykanów pracuje w każdej branży i grupie American People Przegląd informacji odświeżających te oceny w środku każdej statystyki. Wiesz, jaka liczba osób z Izby i Senatu ma miejsce w każdej grupie ideologicznej. Możesz gromadzić informacje o wartości akcji, ilości Wstępnych ofert publicznych odbywających się w ciągu roku i jaka liczba szefów wydaje się zamontować ofertę na otwarte biuro. Targi te, mimo że są zdumiewającą liczbą czynników do rozważenia, zaczynają eksponować to, co jest pod spodem.

Możesz postawić pytanie: “Jak mógłbym wziąć pod uwagę wszystkie czynniki, które zebrałem i skupić się na kilku z nich?”. Specjalistycznie rzecz biorąc, musisz “zmniejszyć komponent przestrzeni swojego elementu.” Zmniejszając element przestrzeni swojego elementu, masz mniej powiązań między czynnikami do rozważenia i jesteś bardziej przeciwny przebiciu twojego modelu. (Uwaga: Nie oznacza to szybko, że overfitting, i tak dalej, nigdy więcej nie jest problemem – jednak idziemy właściwą drogą!)

Do pewnego stopnia oczywiście, zmniejszenie elementu przestrzeni komponentu jest klasyfikowane jako “zmniejszenie wymiarowości”. Istnieje wiele podejść do osiągnięcia zmniejszenia wymiarowości, jednak duża część tych procedur może być sklasyfikowana jako jedna z dwóch klas:

Unieszkodliwianie światła (Highlight Disposal)

Ekstrakcja świetlna

Unieszkodliwianie światła jest tym, co się wydaje: zmniejszamy przestrzeń komponentu poprzez rezygnację z podświetlenia. W powyższym modelu produktu krajowego brutto, zamiast myśleć o każdym czynniku, możemy zrezygnować ze wszystkich czynników, z wyjątkiem tych trzech, które naszym zdaniem najlepiej oddadzą podobieństwo produkcji krajowej USA. Interesujące jest, aby zwrócić uwagę na techniki końcowe, które obejmują bezwysiłkowość i utrzymanie możliwości interpretacji czynników.

Jednakże, jako nieudacznik, nie uzyskujesz żadnych danych z tych zmiennych, które opuściłeś. W przypadku, gdy rok temu wykorzystujemy produkt krajowy brutto, wielkość populacji w gromadzeniu zawodów według najnowszych wyników badań American People oraz wskaźnik bezrobocia, aby przewidzieć produkt krajowy brutto w bieżącym roku, pomijamy wszelkie czynniki, które mogłyby dodać do naszego modelu. Rezygnując z wyróżników, dodatkowo całkowicie pozbyliśmy się wszelkich korzyści, jakie te spadkowe czynniki mogłyby wnieść do naszego modelu.

Wydobycie surowców wtórnych, tak czy inaczej, nie wchodzi w grę w tej kwestii. Załóżmy, że mamy dziesięć niezależnych czynników. Włączając ekstrakcję, robimy dziesięć “nowych” autonomicznych czynników, gdzie każdy “nowy” wolny czynnik jest mieszanką każdego z dziesięciu “starych” autonomicznych czynników. W każdym razie, tworzymy te nowe wolne zmienne, mając na uwadze pewien cel i wymagamy tych nowych czynników przez to, jak dobrze przewidują one naszą zmienną zależną.

Możesz powiedzieć: “Gdzie zmniejsza się wymiarowość?”. Cóż, zachowujemy taką samą liczbę nowych wolnych zmiennych, jakiej potrzebujemy, jednak rezygnujemy z tych “najmniej znaczących”. Ponieważ wymagaliśmy nowych zmiennych przez to, jak dobrze przewidują one naszą zmienną zależną, zdajemy sobie sprawę, która z nich jest najbardziej znacząca, a która najmniej znacząca. Tak czy inaczej, – i tu jest kicker – na tej podstawie, że te nowe wolne czynniki są mieszanką naszych starych, niezależnie od tego, że zachowujemy najbardziej znaczące części naszych starych czynników, w każdym razie, gdy upuścimy przynajmniej jedną z tych “nowych” zmiennych!

Badanie segmentu “Head” jest metodą obejmującą ekstrakcję – konsoliduje więc nasze czynniki informacyjne mając na uwadze pewien cel, w tym momencie możemy zrezygnować z “najmniej znaczących” czynników, zachowując jednocześnie najważniejsze elementy całości czynników! Dodatkową zaletą jest to, że każdy z “nowych” czynników po UPW jest na ogół wolny od siebie. Jest to zaleta w świetle faktu, że założenia modelu prostego wymagają, aby nasze autonomiczne czynniki były wolne od siebie. Przy założeniu, że zdecydujemy się na dopasowanie modelu z nawrotem prostym do tych “nowych” zmiennych (patrz “nawrót części czołowej” poniżej), założenie to zostanie zasadniczo spełnione.

Kiedy byłoby wskazane, abym wykorzystał PCA?

Czy chciałbyś zmniejszyć liczbę czynników, ale nie jesteś gotowy do rozpoznania czynników, które całkowicie wyprzeć się z myśli?

Czy chcielibyście Państwo zagwarantować, że wasze czynniki są od siebie wolne?

Czy to prawda, że jesteś otwarty na to, by uczynić swoje wolne czynniki mniej zrozumiałymi?

Na wypadek, gdybyście skierowali “tak” do każdego z trzech pytań, PCA jest w tym momencie przyzwoitą strategią do wykorzystania. W przypadku, gdy zwróciliście się Państwo “nie” do trzech zapytań, nie powinniście stosować PCA.

Jak działa PCA?

Segment po tym badaniu bada, dlaczego PCA działa, jednak podanie krótkiego streszczenia przed wskoczeniem do obliczeń może być przydatne do ustawienia:

Ustalimy ramy, które nakreślą, w jaki sposób wszystkie nasze czynniki identyfikują się ze sobą.

W tym momencie rozdzielimy tę siatkę na dwa oddzielne segmenty: kierunek i wielkość. Będziemy wtedy w stanie zrozumieć “nagłówki” naszych informacji i ich “zakres” (lub jak “znaczący” jest każdy kurs). Ekran poniżej, z apletu setosa.io, pokazuje dwa główne łożyska w tej informacji: “czerwony kurs” i “zielony kurs”. Dla tej sytuacji, “czerwony kurs” jest bardziej znaczący. Dowiemy się później, dlaczego tak się dzieje, jednak biorąc pod uwagę sposób organizacji miejsc, czy byłbyś w stanie dostrzec jakiś powód, dla którego “czerwony kurs” wygląda na bardziej znaczący niż “zielone łożysko” (Wskazówka: Co może przypominać linia najlepiej pasująca do tej informacji?)

https://miro.medium.com/max/374/1*P8_C9uk3ewpRDtevf9wVxg.png

Zmienimy nasze unikalne informacje, aby dopasować się do tych istotnych pozycji (które są mieszanką naszych unikalnych czynników). Zrzut ekranu poniżej (znów z setosa.io) jest nie do odróżnienia precyzyjną informacją z góry, ale zmienioną w taki sposób, że x-i y-tomahawks są obecnie “czerwonym kursem” i “zielonym nagłówkiem”. Jak może wyglądać linia najlepiej pasująca tutaj?

https://miro.medium.com/max/373/1*wsezmnzg-0N_RP3meYNXlQ.png

Podczas gdy model wizualny jest tutaj dwuwymiarowy (i wzdłuż tych linii mamy dwa “nagłówki”), rozważmy sytuację, w której nasze informacje mają więcej pomiarów. Rozróżniając, które “łożyska” są na ogół “znaczące”, możemy spakować lub rozszerzyć naszą informację na małą przestrzeń, upuszczając “nagłówki”, które są “najmniej znaczące”. Przewidując naszą informację na małej przestrzeni, zmniejszamy wymiarowość naszej przestrzeni składowej… ale ponieważ zmieniliśmy naszą informację na te różne “sposoby”, postanowiliśmy zachować każdą unikalną zmienną w naszym modelu!