Korelacja może być techniką statystyczną, która pokaże czy i w jaki sposób silnie powiązane są pary zmiennych. Na przykład, wzrost i waga są powiązane; osoby wyższe są zazwyczaj cięższe niż osoby krótsze. Połączenie nie jest idealne. Osoby o równoważnym wzroście różnią się wagą i łatwo weźmiesz pod uwagę dwie osoby, które rozpoznałeś, że ta krótsza jest cięższa niż ta wyższa. Niemniej jednak, typowa waga osób 5’5” jest mniejsza niż typowa waga osób 5’6”, a ich średnia waga jest mniejsza niż osób 5’7” itd. Korelacja może powiedzieć tylko, jaka jest proporcja zmienności wagi osobników do ich wysokości.

Chociaż korelacja ta jest dość oczywista, Twoje dane mogą zawierać niespodziewane korelacje. będziesz również podejrzewać, że istnieją korelacje, ale nie wiesz, które są najsilniejsze. Inteligentna analiza korelacji może spowodować lepsze zrozumienie twoich danych.

Techniki określania korelacji

Istnieje kilka różnych technik korelacji. Opcjonalny moduł statystyczny systemu badawczego zawiera najczęściej spotykany typ, zwany korelacją Pearsona lub product-moment. Moduł ten zawiera również odmianę tego typu zwaną korelacją . Ta ostatnia jest korzystna, gdy chcesz zaistnieć w związku pomiędzy dwoma zmiennymi przy jednoczesnym usunięciu efektu jednej lub dwóch innych zmiennych.

Jak wszystkie techniki statystyczne, korelacja jest tylko odpowiednim rodzajem danych. Korelacja działa dla danych kwantyfikowalnych, podczas których liczby są znaczące, zazwyczaj wielkości jakiegoś rodzaju. Nie może być stosowana dla danych czysto kategorycznych, takich jak płeć, zakupione marki, czy ulubiony kolor.

Skale ocen

Skale ratingowe są kontrowersyjną sprawą środkową. Liczby w skalach ratingowych mają znaczenie, ale to znaczenie nie jest precyzyjne. Nie są jak ilości. W przypadku ilości (np. dolarów), różnica między 1 a kilkoma jest ściśle równa różnicy między 2 a 3 . W przypadku skali ratingowej, może to nie być prawdą. Upewnij się, że Twoi respondenci myślą, że ocena dwóch jest między oceną 1 a oceną trzech, ale nie możesz się upewnić, że myślą, że jest dokładnie w połowie drogi. Jest to często bardzo prawdziwe, jeśli oznaczysz środkowe punkty swojej skali (nie możesz założyć, że “dobry” jest dokładnie w połowie drogi między “doskonały” a “sprawiedliwy”).

Większość statystyków twierdzi, że nie można używać korelacji z skalami ocen, ponieważ matematyka tej techniki zakłada, że różnice między liczbami są dokładnie równe. Niemniej jednak, wielu badaczy stosuje korelacje ze skalami ratingowymi, ponieważ wyniki zwykle odzwierciedlają ważny świat. Nasze własne stanowisko jest takie, że można po prostu stosować korelacje ze skalami ratingowymi, ale należy to robić ostrożnie. Podczas pracy z wielkościami, korelacje zapewniają precyzyjne pomiary. Przy pracy z wagami ratingowymi, korelacje dostarczają ogólnych wskazówek.

Współczynnik korelacji

Główne wyniki korelacji nazywane są współczynnikiem korelacji (lub “r”). Waha się on od -1,0 do +1,0. Im bliżej r jest do +1 lub -1, tym bliższe są te 2 zmienne.

Jeżeli r jest na skraju 0, to oznacza, że nie ma żadnej zależności pomiędzy tymi zmiennymi. Jeżeli r jest dodatnie, to oznacza, że razem zmienna zwiększa się, a odwrotnie zwiększa się. Jeśli r jest ujemne, to znaczy, że razem jest większe, to przeciwieństwo staje się mniejsze (często nazywane korelacją “odwrotną”).

Podczas gdy współczynniki korelacji są zazwyczaj podawane jako r = (wartość pomiędzy -1 i +1), to ich kwadratowanie ułatwia poznanie . Kwadrat współczynnika (lub kwadrat r) jest odpowiedni do procentu zmienności jednej ze zmiennych, która jest związana ze zmiennością wewnątrz drugiej. Po kwadratowaniu r należy zignorować punkt procentowy . R równe .5 oznacza 25% wariacji (.5 kwadratowe =.25). Wartość r równa .7 oznacza 49% wariacji (.7 kwadratowy = .49).

Raport o korelacji może również pokazywać drugi wynik każdego testu – istotność statystyczną. w tym przypadku poziom istotności wskaże, jak prawdopodobne jest, że zgłaszane korelacje mogą być również dzięki przypadkowi w ramach rodzaju błędu próby. Jeśli pracujesz z małymi rozmiarami próby, wybierz format raportu, który ma poziom ważności. Format ten informuje również o wielkości próby.

Kluczową rzeczą do zapamiętania podczas pracy z korelacjami nie jest założenie, że korelacja oznacza, że zmiana jednej zmiennej powoduje zmianę innej. Zarówno sprzedaż komputerów prywatnych, jak i obuwia sportowego silnie wzrosła na przestrzeni lat i istnieje między nimi wysoka korelacja, ale nie można zakładać, że zakup komputerów powoduje, że ludzie kupują obuwie sportowe (lub odwrotnie).

Drugie zastrzeżenie jest takie, że technika korelacji Pearsona najlepiej sprawdza się w relacjach liniowych: razem zmienna staje się większa, odwrotnie – większa (lub mniejsza) w bezpośrednich proporcjach. Nie sprawdza się ona dobrze w relacjach krzywoliniowych (w których połączenie nie następuje po linii prostej). Przykładem relacji krzywoliniowych jest wiek i opieka zdrowotna. Są one spokrewnione, ale połączenie nie przebiega po linii prostej. Zarówno małe dzieci, jak i osoby starsze korzystają z opieki zdrowotnej w znacznie większym stopniu niż nastolatki czy młodzi dorośli. Wielokrotna korelacja (również zawarta w module statystycznym) często nie bada relacji krzywoliniowych, ale jest ona poza zakresem tego tekstu.