Zastosowanie macierzy korelacji

Istnieją trzy szerokie powody, dla których warto obliczyć matrycę korelacji:

Aby podsumować dużą ilość danych, gdzie celem jest zobaczenie wzorców. W naszym przykładzie powyżej, obserwowalnym wzorcem jest to, że wszystkie zmienne wysoce korelują ze sobą.

Aby wprowadzić je do innych analiz. Na przykład, ludzie powszechnie używają macierzy korelacji jako danych wejściowych do eksploratorskiej analizy czynnikowej, uzupełniającej analizy czynnikowej, modeli równań strukturalnych i regresji liniowej przy wyłączeniu brakujących wartości parami.

Jako diagnostyka podczas sprawdzania innych analiz. Na przykład, w przypadku regresji liniowej duża ilość korelacji sugeruje, że oszacowania regresji liniowej będą niewiarygodne.

Statystyka korelacji

Większość macierzy korelacji wykorzystuje korelację product-moment (r) firmy Pearson. Powszechnie stosuje się również korelację Spearmana i Tau-b Kendalla.  Obie te korelacje są nieparametryczne i mniej podatne na wartości odstające niż r.

Kodowanie zmiennych

Jeśli posiadasz również dane z ankiety, musisz zdecydować jak zakodować dane przed obliczeniem korelacji. Na przykład, jeśli respondenci mieli do wyboru: Silnie nie zgadzają się, Nieco nie zgadzają się, Ani nie zgadzają się, Nieco zgadzają się i Silnie zgadzają się, można przypisać kody odpowiednio 1, 2, 3, 4 i 5 (lub, matematycznie równoważne z punktu widzenia korelacji, wyniki -2, -1, 0, 1 i 2). Możliwe są jednak inne kody, takie jak -4, -1, 0, 1, 4. Zmiany w kodach mają zwykle niewielki wpływ, z wyjątkiem sytuacji ekstremalnych.

Postępowanie w przypadku brakujących wartości

Dane, których używamy do obliczania korelacji, często zawierają brakujące wartości. Może to być spowodowane tym, że nie zebraliśmy tych danych lub nie znamy odpowiedzi. Istnieją różne strategie radzenia sobie z brakującymi wartościami przy obliczaniu macierzy korelacji. Najlepszą praktyką jest zazwyczaj stosowanie wielu imputacji. Jednakże, ludzie częściej używają brakujących wartości parami (czasami znanych jako korelacje częściowe). Wiąże się to z obliczaniem korelacji przy użyciu wszystkich brakujących danych dla tych dwóch zmiennych. Alternatywnie, niektórzy używają listownego usuwania danych, znanego również jako usuwanie poszczególnych przypadków, które wykorzystuje wyłącznie obserwacje bez brakujących danych. Zarówno usuwanie parami, jak i usuwanie poszczególnych przypadków zakłada, że brak danych jest całkowicie przypadkowy. Dlatego też na ogół preferowaną opcją są wielokrotne imputacje.

Prezentacja

Podczas prezentacji macierzy korelacji należy rozważyć różne opcje, w tym:

Czy pokazać całą matrycę, jak powyżej, czy tylko bity nieredundantowe, jak poniżej (prawdopodobnie należy również usunąć wartości 1.00 na przekątnej głównej).

Jak sformatować liczby (na przykład, najlepszą praktyką jest usunięcie zer przed miejscami dziesiętnymi i wyrównanie liczb dziesiętnych, jak powyżej, ale może to być trudne do zrobienia w większości programów).

Czy pokazywać istotność statystyczną (np. poprzez kodowanie kolorem czerwonym komórek).

Czy kodować kolorem wartości według statystyk korelacji (jak pokazano poniżej).

Zmiana kolejności wierszy i kolumn w celu zwiększenia przejrzystości wzorów.