Czym jest korelacja i związek przyczynowy i w jaki sposób się różnią?

Dwie lub więcej zmiennych uważanych za powiązane, w kontekście statystycznym, jeśli ich wartości zmieniają się w taki sposób, że ponieważ wartość jednej zmiennej zwiększa się lub zmniejsza, to wartość przeciwnej zmiennej (choć będzie ona w przeciwnym kierunku).

Na przykład, dla 2 zmiennych “przepracowane godziny” i “zarobiony dochód” istnieje związek między tymi 2, jeżeli wzrost liczby przepracowanych godzin jest związany ze wzrostem zarobionego dochodu. Jeśli weźmiemy pod uwagę 2 zmienne “cena” i “siła nabywcza”, ponieważ cena produktów zwiększa zdolność jednostki do zakupów tych towarów zmniejsza się (zakładając stały dochód).

Korelacja może być miarą statystyczną (wyrażoną w postaci liczby), która opisuje wymiary i kierunek relacji między dwoma lub więcej zmiennymi. Korelacja między zmiennymi nie oznacza jednak automatycznie, że zmiana jednej zmiennej jest wyjaśnieniem zmiany w obrębie wartości zmiennej przeciwnej.

Związek przyczynowy wskazuje, że jedno zdarzenie jest wynikiem wystąpienia zdarzenia przeciwnego; tj. istnieje związek przyczynowy pomiędzy tymi dwoma zdarzeniami. Często jest on również wymieniany jako przyczyna i skutek.

Teoretycznie różnica między tymi 2 rodzajami związków jest łatwa do zauważenia – działanie lub zdarzenie może spowodować inne (np. palenie powoduje wzrost ryzyka zachorowania na raka płuc), lub może być skorelowane z innym (np. palenie jest skorelowane z alkoholizmem, ale nie powoduje alkoholizmu). W praktyce jednak, w porównaniu z ustaleniem korelacji, trudno jest jednoznacznie ustalić przyczynę i skutek.

Dlaczego korelacja i przyczynowość są ważne?

Celem wielu badań lub analiz naukowych jest stwierdzenie, w jakim stopniu jedna zmienna odnosi się do innej. Na przykład:

Czy istnieje związek między poziomem wykształcenia danej osoby a jej zdrowiem?

Czy własność zwierząt domowych jest związana z dłuższym życiem?

Czy kampania marketingowa firmy zwiększyła sprzedaż jej produktów?

Te i inne pytania badają, czy istnieje korelacja pomiędzy tymi dwoma zmiennymi, a jeśli istnieje, to może to stanowić wskazówkę do dalszych badań nad tym, czy jedno działanie powoduje coś przeciwnego. Zrozumienie korelacji i przyczynowości pozwala na lepsze ukierunkowanie polityki i programów, które mają na celu osiągnięcie pożądanego wyniku.

Jak mierzona jest korelacja?

Dla dwóch zmiennych, korelacja statystyczna jest mierzona przy użyciu współczynnika korelacji, reprezentowanego przez symbol (r), który może być pojedynczą liczbą opisującą stopień zależności między dwoma zmiennymi.

Wartość liczbowa współczynnika waha się od +1,0 do -1,0, co daje znak siły i kierunku połączenia.

Jeżeli współczynnik korelacji ma wartość ujemną (poniżej 0), oznacza to ujemną zależność pomiędzy zmiennymi. Sugeruje to, że zmienne poruszają się w przeciwnych kierunkach (tzn. kiedy zwiększamy przeciwną wartość zmniejsza się, lub kiedy zmniejszamy przeciwną wartość zwiększa się).

Jeżeli współczynnik korelacji ma wartość dodatnią (powyżej 0), to oznacza to, że obie zmienne poruszają się w parze, tzn. gdy jedna zmienna zwiększa, to druga zmniejsza, a druga zmniejsza, lub gdy jedna zwiększa, to zwiększa.

Gdy współczynnik korelacji wynosi 0, oznacza to, że nie ma żadnej zależności pomiędzy zmiennymi (jedna zmienna może pozostać stała, podczas gdy druga rośnie lub maleje).

Chociaż współczynnik korelacji może być użyteczną miarą, to jednak jest to jego ograniczenie:

Współczynniki korelacji są zazwyczaj związane z pomiarem zależności liniowej.

Na przykład, jeśli porównuje się przepracowane godziny i dochód uzyskany przez handlowca, który nalicza stawkę godzinową za swoją pracę, istnieje liniowa (lub prosta linia) zależność, ponieważ z każdą dodatkową przepracowaną godziną dochód zwiększy się o jednolitą kwotę.

Jeśli jednak, opłata za obsługę klienta wspierała początkową opłatę za wywołanie i opłatę godzinową, która stopniowo zmniejsza się im dłużej trwała praca, związek pomiędzy przepracowaną godziną a dochodem byłby nieliniowy, gdzie współczynnik korelacji mógłby być również bliższy 0.

Wymagana jest ostrożność przy interpretacji wartości “r”. Można poszukiwać korelacji między wieloma zmiennymi, jednak zależności te są często spowodowane innymi czynnikami i nie mają nic wspólnego z tymi dwoma zmiennymi.

Na przykład sprzedaż lodów, a tym samym sprzedaż produktów z filtrem przeciwsłonecznym, może wzrastać i spadać w ciągu roku w sposób systematyczny, ale może to być zależność, która może wynikać z konsekwencji pory roku (tj. cieplejsza pogoda powoduje wzrost liczby osób noszących filtr przeciwsłoneczny również jako jedzących mrożony deser), a nie z bezpośredniego związku pomiędzy sprzedażą produktów z filtrem przeciwsłonecznym a lodami.

Współczynnik korelacji nie powinien mówić nic o związku przyczynowo-skutkowym. Badając wartość “r”, możemy stwierdzić, że dwie zmienne są ze sobą powiązane, ale ta wartość “r” nie mówi nam, czy jedna zmienna była wyjaśnieniem zmiany w drugiej.

Jak można ustalić związek przyczynowo-skutkowy?

Przyczynowość polega na tym, że obszar statystyki, który jest powszechnie źle rozumiany i nadużywany przez ludzi w ramach błędnego przekonania, że ponieważ informacja pokazuje korelację, że koniecznie istnieje podstawowy związek przyczynowy .

Podczas badania kontrolowanego próba lub populacja są podzielone na dwie grupy, przy czym obie grupy są porównywalne niemal pod każdym względem. Następnie te dwie grupy są poddawane różnym metodom leczenia, a zatem oceniane są wyniki każdej grupy.

Na przykład, w badaniach medycznych, jedna grupa może otrzymać placebo, podczas gdy grupa przeciwna otrzymuje zastępczy rodzaj leku. Jeśli te dwie grupy mają wyraźnie różne wyniki, różne doświadczenia mogły spowodować różne wyniki.

Ze względów etycznych, istnieją ograniczenia w wykorzystaniu badań kontrolowanych

Czym jest korelacja i związek przyczynowy i jak się różnią?

Dwie lub więcej zmiennych uważanych za powiązane, w kontekście statystycznym, jeśli ich wartości zmieniają się w taki sposób, że ponieważ wartość jednej zmiennej zwiększa się lub zmniejsza, to wartość przeciwnej zmiennej (choć będzie ona w przeciwnym kierunku).

Na przykład, dla 2 zmiennych “przepracowane godziny” i “zarobiony dochód” istnieje związek pomiędzy tymi 2, jeżeli wzrost liczby przepracowanych godzin jest związany ze wzrostem zarobionego dochodu. Jeśli weźmiemy pod uwagę 2 zmienne “cena” i “siła nabywcza”, ponieważ cena produktów zwiększa zdolność jednostki do zakupów tych towarów zmniejsza się (zakładając stały dochód).

Korelacja może być miarą statystyczną (wyrażoną w postaci liczby), która opisuje wymiary i kierunek relacji między dwoma lub więcej zmiennymi. Korelacja między zmiennymi nie oznacza jednak automatycznie, że zmiana jednej zmiennej jest wyjaśnieniem zmiany w obrębie wartości zmiennej przeciwnej.

Związek przyczynowy wskazuje, że jedno zdarzenie jest wynikiem wystąpienia zdarzenia przeciwnego; tj. istnieje związek przyczynowy pomiędzy tymi dwoma zdarzeniami. Często jest on również wymieniany jako przyczyna i skutek.

Teoretycznie różnica między tymi 2 rodzajami związków jest łatwa do zauważenia – działanie lub zdarzenie może spowodować inne (np. palenie powoduje wzrost ryzyka zachorowania na raka płuc), lub może być skorelowane z innym (np. palenie jest skorelowane z alkoholizmem, ale nie powoduje alkoholizmu). W praktyce jednak, w porównaniu z ustaleniem korelacji, trudno jest jednoznacznie ustalić przyczynę i skutek.

Dlaczego korelacja i przyczynowość są ważne?

Celem wielu badań lub analiz naukowych jest stwierdzenie, w jakim stopniu jedna zmienna odnosi się do innej. Na przykład:

Czy istnieje związek między poziomem wykształcenia danej osoby a jej zdrowiem?

Czy własność zwierząt domowych jest związana z dłuższym życiem?

Czy kampania marketingowa firmy zwiększyła sprzedaż jej produktów?

Te i inne pytania badają, czy istnieje korelacja pomiędzy tymi dwoma zmiennymi, a jeśli istnieje, to może to stanowić wskazówkę do dalszych badań nad tym, czy jedno działanie powoduje coś przeciwnego. Zrozumienie korelacji i przyczynowości pozwala na lepsze ukierunkowanie polityki i programów, które mają na celu osiągnięcie pożądanego wyniku.

Jak mierzona jest korelacja?

Dla dwóch zmiennych, korelacja statystyczna jest mierzona przy użyciu współczynnika korelacji, reprezentowanego przez symbol (r), który może być pojedynczą liczbą opisującą stopień zależności między dwoma zmiennymi.

Wartość liczbowa współczynnika waha się od +1,0 do -1,0, co daje znak siły i kierunku połączenia.

Jeśli współczynnik korelacji ma wartość ujemną (poniżej 0), oznacza to ujemną zależność między zmiennymi. sugeruje to, że zmienne poruszają się w przeciwnych kierunkach (tzn. gdy zwiększa się przeciwną wartość zmniejsza się, lub gdy zmniejsza się przeciwną wartość zwiększa się).

Jeśli współczynnik korelacji ma wartość dodatnią (powyżej 0), oznacza to dodatnią zależność między zmiennymi, co oznacza, że obie zmienne poruszają się w tandemie, tzn. razem zmienna zmniejsza przeciwną wartość również zmniejsza się, lub gdy jedna zmienna zwiększa przeciwną wartość również zwiększa.

Gdy współczynnik korelacji wynosi 0, oznacza to, że nie ma żadnej zależności pomiędzy zmiennymi (jedna zmienna może pozostać stała, podczas gdy druga rośnie lub maleje).

Chociaż współczynnik korelacji może być użyteczną miarą, to jednak jest to jego ograniczenie:

Współczynniki korelacji są zazwyczaj związane z pomiarem zależności liniowej.

Na przykład, jeśli porównuje się przepracowane godziny i dochód uzyskany przez handlowca, który nalicza stawkę godzinową za swoją pracę, istnieje liniowa (lub prosta linia) zależność, ponieważ z każdą dodatkową przepracowaną godziną dochód zwiększy się o jednolitą kwotę.

Jeśli jednak, opłata za godzinę pracy wspierała początkową opłatę za wywołanie i opłatę godzinową, która stopniowo zmniejsza się im dłużej trwała praca, związek pomiędzy przepracowaną godziną a dochodem byłby nieliniowy, gdzie współczynnik korelacji mógłby być również bliższy 0.

Wymagana jest ostrożność przy interpretacji wartości “r”. Możliwe jest poszukiwanie korelacji między wieloma zmiennymi, jednak relacje te są często spowodowane innymi czynnikami i nie mają nic wspólnego z rozpatrywaniem tych dwóch zmiennych.

Na przykład sprzedaż lodów, a tym samym sprzedaż produktów z filtrem przeciwsłonecznym, może wzrastać i spadać w ciągu roku w sposób systematyczny, ale może to być zależność, która może wynikać z konsekwencji pory roku (tj. cieplejsza pogoda powoduje wzrost liczby osób noszących filtr przeciwsłoneczny również jako jedzących mrożony deser), a nie z bezpośredniego związku między sprzedażą produktów z filtrem przeciwsłonecznym a lodami.

Współczynnik korelacji nie powinien mówić nic o związku przyczynowo-skutkowym. Badając wartość “r”, możemy stwierdzić, że dwie zmienne są ze sobą powiązane, ale ta wartość “r” nie mówi nam, czy jedna zmienna była wyjaśnieniem zmiany w drugiej.

Jak można ustalić związek przyczynowo-skutkowy?

Przyczynowość polega na tym, że obszar statystyki, który jest powszechnie źle rozumiany i nadużywany przez ludzi w ramach błędnego przekonania, że ponieważ informacja pokazuje korelację, że koniecznie istnieje podstawowy związek przyczynowy.

Podczas badania kontrolowanego próba lub populacja są podzielone na dwie grupy, przy czym obie grupy są porównywalne niemal pod każdym względem. Następnie te dwie grupy są poddawane różnym metodom leczenia, a zatem oceniane są wyniki każdej grupy.

Na przykład, w badaniach medycznych, jedna grupa może otrzymać placebo, podczas gdy grupa przeciwna otrzymuje zastępczy rodzaj leku. Jeśli te dwie grupy mają wyraźnie różne wyniki, różne doświadczenia mogły spowodować różne wyniki.

Ze względów etycznych istnieją ograniczenia w korzystaniu z badań kontrolowanych; może nie być właściwe stosowanie dwóch porównywalnych grup i poddanie jednej z nich działaniu szkodliwemu, podczas gdy drugiej nie. Aby pobić ten przykład, w badaniach obserwacyjnych często nie bada się korelacji i przyczynowości dla interesującej nas populacji. Badania te mogą sprawdzać zachowania i wyniki grup oraz obserwować wszelkie zmiany w czasie.