Pobierz matematykę i aplikację z zakresu analizy dla obu warunków…

Kowariancja i korelacja to dwa terminy używane znacząco w dziedzinie statystyki i teorii prawdopodobieństwa. Większość artykułów i literatury na temat prawdopodobieństwa i statystyki zakłada podstawowe rozumienie pojęć takich jak środki, odchylenie standardowe, korelacje, wielkość próby i kowariancja.Demistyfikujmy dziś kilka z tych pojęć, abyśmy mogli przejść do pozostałych. Celem artykułu jest zdefiniowanie pojęć: korelacja i kowariancja macierzy, rozróżnienie między nimi i zrozumienie ich zastosowania w dziedzinie analityki i zbiorów danych.

Demistyfikowanie terminów

Mówiąc prościej, oba pojęcia mierzą zależność i związek pomiędzy dwoma zmiennymi. “Kowariancja” = kierunek liniowej zależności między zmiennymi. Korelacja”, z drugiej strony, mierzy zarówno siłę, jak i kierunek liniowej zależności między dwiema zmiennymi. Korelacja jest funkcją kowariancji. To, co je wyróżnia, to fakt, że wartości korelacji są standaryzowane, a wartości kowariancji nie. Współczynnik korelacji dwóch zmiennych można uzyskać dzieląc kowariancję tych zmiennych przez iloczyn odchyleń standardowych tych samych wartości. Jeżeli definicja odchylenia standardowego zostanie zrewidowana, to zasadniczo mierzy ona bezwzględną zmienność rozkładu zbioru danych. Dzieląc wartości kowariancji przez odchylenie standardowe, zasadniczo skaluje się wartość w dół do ograniczonego zakresu od -1 do +1. Jest to dokładnie ten zakres wartości korelacji.

Matematyczna definicja terminów

Teraz zobaczmy matematyczne definicje tych terminów.

Covariance

Kowariancja dwóch zmiennych (x i y) może być reprezentowana jako kow(x,y). Jeżeli E[x] jest oczekiwaną wartością lub średnią z próby “x”, wówczas cov(x,y) może być reprezentowane w następujący sposób:

https://miro.medium.com/max/1152/1*m6zNZhMRkK-Kqms4OPb91g.jpeg

wyrażenie może być zapisane w następujący sposób:

https://miro.medium.com/max/1152/1*TzQSHnkAazmLxnZkilORlQ.jpeg

na powyższym obrazku, “s²” lub próbkowana wariancja jest w zasadzie kowariancją zmiennej z samą sobą. Termin ten może być również zdefiniowany w następujący sposób:

https://miro.medium.com/max/1152/1*bgQq0eahJWAbTdahIcxMLA.jpeg

W powyższym wzorze licznik równania(A) jest nazywany sumą kwadratowych odchyleń. W równaniu(B) z dwoma zmiennymi x i y, jest on nazywany sumą iloczynów krzyżowych. W powyższym wzorze n jest liczbą próbek w zbiorze danych. Wartość (n-1) oznacza stopnie swobody.

W celu wyjaśnienia, jakie są stopnie swobody, weźmy przykład. W zbiorze 3 liczb o średniej jako 10 i dwóch z trzech zmiennych jako 5 i 15, jest tylko jedna możliwość wartości, którą może przyjąć trzecia liczba, a mianowicie 10. W zbiorze 3 liczb o tej samej średniej, na przykład: 12,8 i 10 lub powiedzmy 9,10 i 11, jest tylko jedna wartość na każde 2 wartości podane w zbiorze. Zasadniczo można tu zmienić te dwie wartości, a trzecia wartość sama się ustala. Stopień swobody wynosi tutaj 2. Zasadniczo, stopień swobody jest liczbą niezależnych punktów danych, które poszły do obliczenia estymacji. Jak widzimy w poprzednim przykładzie, nie jest on koniecznie równy liczbie elementów w próbie (n).

Korelacja

Współczynnik korelacji jest również znany jako współczynnik korelacji produkt-osoba współczynnika korelacji Pearsona. Jak wspomniano powyżej, uzyskuje się go poprzez podzielenie kowariancji obu zmiennych przez iloczyn ich odchyleń standardowych. Przedstawienie matematyczne tego samego można przedstawić w następujący sposób:

https://miro.medium.com/max/1152/1*nu-A97kSxnDG4z4fVPQYKA.jpeg

Wartości współczynnika korelacji mogą wahać się od -1 do +1. Im bliżej jest do +1 lub -1, tym bardziej skorelowane są te dwie zmienne. Znak dodatni wskazuje kierunek korelacji, tzn. jeżeli jedna z dwóch zmiennych wzrośnie, to druga również ma wzrosnąć.

Reprezentacja Macierzy Danych Kowariancji i Korelacji

Dla macierzy danych, X może być przedstawiony w następujący sposób:

https://miro.medium.com/max/1152/1*ue_BL0eV2rgH2gA53MOdMA.jpeg

wektor “xj” oznaczałby w zasadzie a (n × 1) wektor wyodrębniony z kolumny j-tej X, gdzie j należy do zestawu (1,2,…,p). W ten sam sposób “xi” reprezentuje wektor (1 × p) z i-tego rzędu X. W tym przypadku “i” może przyjmować wartość z zestawu (1,2,…, n). Możesz także interpretować X jako tablicę zmiennych, gdzie “xij” jest j-ta zmienna (kolumna) zebrana z i-tego wiersza (wiersz). Dla ułatwienia nazywamy wiersze jako pozycje/podmioty, a kolumny jako zmienne. Zobaczmy teraz średnią z kolumny w macierzy danych powyżej:

https://miro.medium.com/max/1152/1*Q-WjLMBfYRiWxC7Aj4lHSg.jpeg

https://miro.medium.com/max/1152/1*r6Caf-E_9JP-L5lvfouZhA.jpeg

Posługując się powyższym pojęciem, zdefiniujmy teraz pojęcie “wiersz-znaczenie”. Jest to w zasadzie średnia z elementów występujących w danym wierszu.

Teraz, kiedy mamy już powyższe metryki, łatwiej będzie zdefiniować matrycę kowariancji (S)

https://miro.medium.com/max/1152/1*qqXEtdSeHpFgfjGhEoTzag.jpeg

W powyższej macierzy widzimy, że wielkość macierzy kowariancji wynosi p × p. Jest to zasadniczo macierzy symetrycznej, tj. macierzy kwadraturowej, która jest równa jej transpozycji (S`). Terminy konstruuj±ce matrycę kowariancji nazywane s± wariacjami danej zmiennej, tworz±cymi przek±tn± matrycy lub kowariancj± 2 zmiennych, które wypełniaj± resztę przestrzeni. Zmienna j-th kowariancja ze zmienną k-th jest równoważna kowariancji zmiennej k-th ze zmienną j-th, czyli ‘sjk’ = ‘skj’.

Matrycę kowariancji można utworzyć z macierzy danych w następujący sposób: Tutaj, ‘Xc’ jest macierzą wyśrodkowaną, która ma odpowiednie znaczenie kolumnowe, odejmowane od każdego elementu. Wykorzystując ją jako centralny element, matryca kowariancji “S” jest produktem transpozycji samego “Xc” i “Xc”, który jest następnie dzielony przez liczbę elementów lub wierszy (“n”) w macierzy danych.

Zanim przejdziemy dalej, przyjrzyjmy się koncepcji wariancji próbki lub s-kwadratowości (s²).  Z tej wartości możemy wyprowadzić odchylenie standardowe zbioru danych. Matematyka definiuje wartość “s” jako odchylenie standardowe zbioru danych.  Zasadniczo wskazuje ona na stopień rozproszenia lub dyfuzji danych wokół ich średniej.

Podobnie, używając tej samej macierzy danych i macierzy kowariancji, definiujemy matrycę korelacji (R):

https://miro.medium.com/max/1091/1*NxfM7QrerSHbvog71Gc6pA.jpeg

Jak widzimy, rozmiar macierzy korelacyjnej to znowu p × p. Teraz, jeśli spojrzymy na poszczególne elementy macierzy korelacyjnej, przekątna główna obejmuje wszystkie 1. Oznacza to, że korelacja danego elementu z nim samym wynosi 1, czyli najwyższą możliwą wartość. Jest to logiczne i intuicyjne. Pozostałe elementy ‘rjk’ to współczynnik korelacji Pearsona pomiędzy dwoma wartościami: ‘xj’ i ‘xk’. Jak widzieliśmy wcześniej, ‘xj’ oznacza j-tą kolumnę macierzy danych, X. Przechodząc do sposobu, w jaki macierz korelacji może być uzyskana z macierzy danych:

https://miro.medium.com/max/1152/1*9wQEaguas_XVpsZ42ag0jg.jpeg

Xs” w powyższej definicji nazywany jest macierzą skalarną lub macierzą standaryzowaną. Tutaj widzimy, że matryca korelacji może być zdefiniowana jako iloczyn transpozycji macierzy skalarnej z samą sobą, podzielony przez “n”. Powracając do definicji odchylenia standardowego z góry, widzimy, że każdy element (podobny do powyższej macierzy kowariancji) standardowej macierzy “Xs” jest podzielony przez odpowiadające mu odchylenie standardowe w kolumnie. To wzmacnia nasze zrozumienie, że matryca korelacji jest znormalizowaną lub skalowaną pochodną macierzy kowariancji.

Kowariancja a korelacja

Wzór kowariancji bierze jednostki z iloczynu jednostek dwóch zmiennych. Z drugiej strony, korelacja ma charakter addytywny. Jest to miara bez jednostek relacji między zmiennymi. Dzieje się tak, ponieważ wartość kowariancji dzieli się przez iloczyn odchyleń standardowych, które mają te same jednostki. Wartość kowariancji jest zależna od zmiany skali zmiennych. Jeżeli wszystkie wartości danej zmiennej zostaną pomnożone przez stałą, a wszystkie wartości innej zmiennej zostaną pomnożone przez podobną lub inną stałą, to wartość kowariancji również się zmienia. Jednak czyniąc to samo, zmiana skali wartości nie wpływa na wartość korelacji. Inną różnicą pomiędzy kowariancją i korelacją jest zakres wartości, które mogą one przyjąć. Współczynniki korelacji wynoszą od -1 do +1, lecz kowariancja może przyjąć dowolną wartość od -∞ do +∞.

Zastosowanie w analityce

Zatem teraz, gdy skończyliśmy z teorią matematyczną, zbadajmy jak i gdzie można ją zastosować w dziedzinie analizy danych. Analiza korelacji, jak wielu analityków by wiedziało, jest niezbędnym narzędziem do charakterystycznej selekcji i analizy wielowymiarowej w procesie wstępnego przetwarzania i badania danych. Korelacja pomaga nam badać i ustalać zależności między zmiennymi. Stosowana jest przy doborze cech przed wszelkiego rodzaju modelowaniem statystycznym lub analizą danych.

Analiza PCA lub Analiza składników głównych jest znaczącym zastosowaniem tego samego. Jak więc decydujemy, co wykorzystać? Matryca korelacji czy matryca kowariancji? Mówiąc wprost, zalecamy stosowanie macierzy kowariancji, gdy zmienne znajdują się w podobnych skalach, oraz macierzy korelacji, gdy skale zmiennych są różne.

Spróbujmy teraz zrozumieć to za pomocą przykładów. Aby pomóc Ci w implementacji, jeśli to konieczne, zajmę się przykładami zarówno w R jak i Pythonie. Najpierw zobaczmy pierwszy przykład, w którym widzimy, jak różne są wyniki PCA, gdy są one obliczane odpowiednio z macierzą korelacji i macierzą kowariancji. W pierwszym przykładzie weźmiemy pod uwagę zestaw danych “mtcars” w R.

# Ładowanie zbioru danych w lokalnym środowisku R

dane (wagony osobowe)

# Wydrukuj pierwsze 10 rzędów zbioru danych

głowa(nosze, 10)

 

https://miro.medium.com/max/451/1*rtBTmAD1UYW1wIwA_Ww_mg.png

Z powyższego obrazu widzimy, że wszystkie kolumny są liczbowe i dlatego możemy przystąpić do analizy. W tym samym celu użyjemy funkcji prcomp() pakietu ‘stats’.