Czym są korelacje i przyczynowość i jak są one nadzwyczajne?

Co najmniej dwa czynniki postrzegane jako powiązane, w warunkach faktycznych, jeśli ich cechy zmieniają się w taki sposób, że szacowanie jednej zmiennej zwiększa lub zmniejsza się, tak samo jak szacowanie drugiej zmiennej (mimo że może być inaczej).

Na przykład dla dwóch czynników “przepracowane godziny” i “zarobione wynagrodzenie” istnieje związek między tymi dwoma czynnikami, jeżeli wzrost liczby przepracowanych godzin jest związany ze wzrostem zarobionego wynagrodzenia. W przypadku, gdy weźmiemy pod uwagę dwa czynniki: “koszt” i “uzyskiwanie mocy”, ponieważ koszt towarów zwiększa zdolność jednostki do nabycia tych produktów, zmniejsza się (oczekiwanie stałego wynagrodzenia).

Korelacja jest miarą faktograficzną (podaną w postaci liczby), która przedstawia wielkość i łożysko związku pomiędzy co najmniej dwoma czynnikami. Zależność między tymi czynnikami nie oznacza w żadnym wypadku, że korekta jednej zmiennej jest przyczyną korekty w szacunkach drugiej zmiennej.

Związek przyczynowy pokazuje, że jedna okoliczność jest efektem ubocznym zdarzenia drugiej; na przykład istnieje związek przyczynowy pomiędzy tymi dwoma okolicznościami. Jest to również przywoływane jako okoliczności i wyniki logiczne.

Hipotetycznie rzecz biorąc, rozróżnienie między tymi dwoma rodzajami powiązań nie jest łatwe do rozróżnienia – działanie lub zdarzenie może spowodować inne (na przykład palenie powoduje wzrost niebezpieczeństwa powstania złośliwego wzrostu płuc), lub może mieć związek z innym (na przykład palenie jest związane z nadużywaniem alkoholu, ale nie powoduje uzależnienia od alkoholu). Praktycznie rzecz biorąc, niezależnie od tego, czy jest to palenie, czy też nie, trudno jest jednoznacznie budować okoliczności i logiczne rezultaty, kontrastować i tworzyć związek.

Z jakiego powodu korelacja i związek przyczynowy są istotne?

Celem wielu badań lub badań logicznych jest rozróżnienie stopnia, w jakim jedna zmienna identyfikuje się z inną zmienną. Na przykład:

Czy istnieje związek między poziomem wykształcenia danej osoby a jej samopoczuciem?

Czy posiadanie zwierząt domowych jest związane z dłuższym życiem?

Czy promowanie przez organizację wysiłku zwiększyło ilość zajmowanych pozycji?

Te i inne pytania sprawdzają, czy istnieje związek pomiędzy tymi dwoma czynnikami, a w przypadku braku związku, może to kontrolować dalsze badania nad tym, czy jedno działanie powoduje drugie. Uzyskując związek i przyczynowość, rozważa ustalenia i projekty, które mają na celu osiągnięcie idealnego rezultatu, aby lepiej się na nich skupić.

Jak ocenia się związek?

Dla dwóch czynników, związek faktyczny jest szacowany poprzez wykorzystanie Współczynnika Związku, przemawiającego za obrazem (r), który jest samotną liczbą przedstawiającą poziom związku pomiędzy dwoma czynnikami.

Wartość liczbowa współczynnika rozciąga się od +1,0 do – 1,0, co daje znak jakości i przebiegu związku.

Przy założeniu, że współczynnik korelacji ma wartość ujemną (poniżej 0), świadczy to o negatywnym związku pomiędzy tymi czynnikami. Oznacza to, że czynniki poruszają się w odwrotny sposób (tzn. gdy buduje się różne redukcje lub gdy zmniejsza się różne przyrosty).

W przypadku, gdy współczynnik korelacji ma wartość dodatnią (powyżej 0), pokazuje on dodatni związek pomiędzy czynnikami, co oznacza, że te dwa czynniki poruszają się parą, na przykład gdy jedna zmienna zmniejsza drugą dodatkowo zmniejsza się, lub gdy jedna zmienna buduje inne w taki sam sposób przyrosty.

Gdy współczynnik połączenia wynosi 0, pokazuje to, że nie ma żadnego związku pomiędzy czynnikami (jedna zmienna może pozostać stabilna, podczas gdy różne przyrosty lub zmniejszenia).

Podczas gdy współczynnik połączenia jest pomocną miarą, ma on swoje ograniczenia:

Współczynniki korelacji są zazwyczaj związane z oszacowaniem prostej zależności.

Na przykład, w przypadku braku możliwości przeanalizowania przepracowanych godzin i wynagrodzenia dla handlowca, który nalicza stawkę godzinową za swoją pracę, istnieje bezpośrednia (lub prosta linia) zależność, ponieważ z każdą dodatkową przepracowaną godziną wynagrodzenie zwiększa się o wiarygodną sumę.

Zakładając, że w każdym przypadku, opłaty za godzinę pracy zależą od tego, co się za nie kryje, a opłata godzinowa, która logicznie maleje im więcej pracy idzie do przodu, związek pomiędzy przepracowanymi godzinami a wynagrodzeniem nie jest prosty, gdzie współczynnik relacji może być bardziej zbliżony do 0.

Przy tłumaczeniu szacunku “r” należy zachować ostrożność. Możliwe jest odkrycie powiązań między wieloma czynnikami, w każdym razie powiązania te mogą być spowodowane różnymi czynnikami i nie mają nic wspólnego z tymi dwoma rozpatrywanymi czynnikami.

Na przykład oferta mrożonych jogurtów i oferta produktów z filtrem przeciwsłonecznym może się zwiększać i zmniejszać w ciągu roku w precyzyjny sposób, jednak zależność ta wynikałaby z wpływu tego okresu (tzn. więcej osób palących w klimacie obserwuje wzrost liczby osób noszących filtry przeciwsłoneczne tak samo jak jedzących deser), a nie z bezpośredniego związku pomiędzy ofertą produktów z filtrem przeciwsłonecznym a mrożonym jogurtem.

Współczynnik połączenia nie powinien być wykorzystywany do mówienia czegokolwiek na temat okoliczności i logicznej zależności wyników. Patrząc na szacunek ‘r’, możemy wnioskować, że dwa czynniki są ze sobą powiązane, ale szacunek ‘r’ nie pozwala nam stwierdzić, czy jedna zmienna była przyczyną korekty w drugiej.

W jaki sposób można by ustalić przyczynę?

Związek przyczynowy to obszar spostrzeżeń, które są zwykle błędnie interpretowane i nadużywane przez jednostki w zmieszanym przekonaniu, że na tej podstawie informacje wskazują na związek, który zasadniczo istnieje w ukrytym związku przyczynowym.

Wykorzystanie kontrolowanego raportu jest najlepszą metodą ustalenia związku przyczynowego między czynnikami. W raporcie kontrolowanym przykład lub ludność są częścią dwóch, przy czym te dwa zgromadzenia są w zasadzie równoważne pod każdym względem. Oba zgromadzenia w tym momencie otrzymują różne leki, a wyniki każdego z nich są oceniane.

Na przykład, w badaniach terapeutycznych, jedno zgromadzenie może otrzymać fałszywe leczenie, podczas gdy drugie otrzymuje inny rodzaj recepty. W przypadku, gdy dwa spotkania mają zauważalnie różne wyniki, różne spotkania mogły spowodować różne wyniki.

Ze względów moralnych, istnieją punkty zaczepienia do wykorzystania badań kontrolowanych; nie byłoby właściwe wykorzystanie dwóch równorzędnych spotkań i mieć jeden z nich doświadczyć destrukcyjny ruch podczas gdy inny nie. Aby pokonać tę okoliczność, badania obserwacyjne są często wykorzystywane do badania związku i przyczynowości dla liczby mieszkańców w intrydze. Egzaminy te mogą być wykorzystywane do badania powiązań i przyczyn intrygi. Badania te mogą dotyczyć praktyk i wyników zgromadzeń, a po pewnym czasie obserwować wszelkie postępy.

Celem tych badań jest dostarczenie wymiernych danych w celu uzupełnienia różnych źródeł danych, które byłyby potrzebne do budowania świadomości istnienia przyczynowości pomiędzy dwoma czynnikami.

https://miro.medium.com/max/652/1*mM089Lta5X6zkUkULcO9aA.png

https://miro.medium.com/max/862/1*mTRUakSIWmo9OX6D2HakWQ.png

Podczas gdy różne osoby mogą mieć różne punkty odniesienia przy wystawianiu ocen, kilka osób na ogół daje wysokie wyniki, niektóre są naprawdę wymagające, mimo że są z tego zadowolone. Aby uniknąć tego nachylenia, możemy odjąć od każdego klienta normalnej oceny wszystkich rzeczy podczas rejestracji normalnej ważonej, i włączyć go z powrotem dla klienta docelowego, pojawił się jako poniżej.

https://miro.medium.com/max/902/1*gLbwJts3g_v2TbPRhFoNfA.png

Dwa sposoby na obliczenie podobieństwa to Pearson Correlation i Cosine Similarity.

https://miro.medium.com/max/1130/1*Xvf2o6kE4VCuueMPikxZ_A.png

https://miro.medium.com/max/1013/1*6HISTi8SjbD2VHicoZwKpA.png

Zasadniczo, myśl jest, aby zlokalizować najbardziej porównywalnych klientów do klienta obiektywnego (najbliższych sąsiadów) i ważą swoje oceny rzeczy jako prognoza oceny tej rzeczy dla klienta docelowego.

Nie wiedząc nic o rzeczach i samych klientów, uważamy, że dwóch klientów są porównywalne, gdy dają podobne rzeczy porównywalne oceny. Dla porównania, w przypadku CF opartego na Thing, stwierdzamy, że dwie rzeczy są porównywalne, kiedy otrzymują porównywalne oceny od równoważnego klienta. W tym momencie, będziemy oczekiwać od obiektywnego klienta na rzeczy poprzez ustalenie normalnej ważonej oceny na większości X porównywalnych rzeczy od tego klienta. Jedną z kluczowych cech CF opartych na Thing jest solidność, która polega na tym, że oceny na danej rzeczy nie zmienią się zasadniczo w dodatkowym czasie, w przeciwieństwie do smaków osób.

https://miro.medium.com/max/737/1*dPzd5-dScFplypBGeSwgUw.png

Istnieje wiele ograniczeń tej techniki. Nie radzi sobie dobrze, gdy nikt w okolicy nie ocenia czegoś, co starasz się przewidzieć dla klienta docelowego. Podobnie, nie jest to biegłość obliczeniowa, jak rozwój liczby klientów i pozycji.

Ramowa faktoryzacja

Ponieważ rozproszenie i wszechstronność są dwiema największymi trudnościami dla standardowej strategii CF, dochodzi do dalszego rozwoju techniki, która rozbija pierwszą nieadekwatną sieć na nisko wymiarowe kraty z nieaktywnymi zmiennymi/oświetleniami i mniejszą rozprożnością. Jest to faktoryzacja sieci.

Oprócz zgłębiania kwestii rozproszenia i wszechstronności, istnieje naturalne wyjaśnienie, dlaczego potrzebujemy siatki niskowymiarowej, aby mówić o skłonnościach klientów. Klient dokonał świetnej oceny Symbolu Filmowego, Grawitacji i Wtajemniczenia. Nie są to tak naprawdę 3 oddzielne przypuszczenia, ale raczej wskazanie, że ten klient może wspierać filmy science fiction i może być dużo więcej filmów science fiction, które ten klient może chcieć. W przeciwieństwie do filmów jawnych, bezwładne atrakcje są przekazywane przez bardziej znaczące cechy poziomu, a klasa Science fiction jest jednym z jałowych wyróżników tej sytuacji. To, co daje nam w końcu faktoryzacja siatkowa, to jak wielu klientów jest ustawionych w kolejce z wieloma obojętnymi akcentami i jak bardzo film pasuje do tego układu nieaktywnych akcentów. Zaletą tego rozwiązania w porównaniu ze standardową najbliższą okolicą jest to, że pomimo tego, że dwóch klientów nie oceniło żadnego równoważnego filmu, to jak na razie można odkryć podobieństwo między nimi przy braku szans na to, że podzielają porównywalne podstawowe gusta, ponownie bezwładne highlights.

https://miro.medium.com/max/853/1*EkKGqn-vM0OLbOkkdqT_xg.png

Aby dostrzec, jak siatka jest faktoryzowana, pierwszą rzeczą do zrozumienia jest Solitary Worth Decomposition(SVD). W związku z matematyką Wielomianu Bezpośredniego, każda prawdziwa siatka R może być rozpadnięta na 3 sieci U, Σ i V. Wykorzystując model obrazu ruchowego, U jest siecią n × r klienta nieaktywnych elementów, V jest siecią m × r elementów obojętnych. Σ jest ramką skośną r × r zawierającą samotne oszacowania unikalnej sieci, mówiąc tylko o tym, jak istotny jest dany element do przewidzenia nachylenia klienta.

Aby posortować oszacowania Σ poprzez zmniejszenie całkowitej estymacji i sieci okrojonej Σ do pierwszych pomiarów k (k cech izolitalnych), możemy przerobić siatkę jako szkielet A. Określenie k powinno zapewnić, że A może wychwycić znaczną większość wahań wewnątrz pierwszego szkieletu R, zatem An jest oszacowaniem R, A ≈ R. Kontrast pomiędzy An i R jest błędem, który musi być ograniczony. Jest to w rzeczywistości koncepcja badania części wytycznych.

https://miro.medium.com/max/753/1*4gP81YRmt5gsixQL0MZuaw.png

W momencie, gdy siatka R jest gruba, U i V mogą być skutecznie zdiagnozowane diagnostycznie. Tak czy inaczej, sieć oceniania filmów jest zbyt nieadekwatna. Pomimo tego, że istnieją pewne strategie przepisywania, aby uzupełnić brakujące jakości, przejdziemy do programowania sposobu radzenia sobie po prostu żyć z tymi brakującymi cechami i odkryć sieci czynników U i V. Zamiast faktoryzowania R za pomocą SVD, staramy się odkryć U i V legalnie z celem, że gdy U i V zwiększyły się z powrotem razem, siatka wydajności R’ jest najbliższym oszacowaniem R, a nie już skąpej sieci. Ta liczbowa estymacja jest zazwyczaj wykonywana przy użyciu nieujemnego współczynnika siatki dla szkieletów rekomendowanych, ponieważ nie ma żadnych negatywnych cech w ocenach.

Patrz receptura poniżej. Biorąc pod uwagę oczekiwaną ocenę dla jawnego klienta i rzeczy, rzecz I jest zauważona jako wektor qᵢ, a klient u jest zauważony jako wektor pᵤ, a celem końcowym jest to, że wynik plamki tych dwóch wektorów jest oczekiwaną oceną klienta u na rzeczy I. Wartość ta jest pokazana w ramach R’ na push u i segmencie I

https://miro.medium.com/max/828/1*3jQ5kqtSftR_SvgABjMoCw.png

Jak znaleźć optymalne rozwiązania qᵢ i pᵤ? Podobnie jak w przypadku większości zadań związanych z uczeniem się maszyn, funkcja strat jest definiowana w celu zminimalizowania kosztów błędów.

https://miro.medium.com/max/1483/1*ycP7NKolvbjfyS_8hDB00Q.png

https://miro.medium.com/max/976/1*_QSX-UktbtY8AWTixYJfBQ.png

rᵤᵢ to prawdziwe oceny z unikalnej sieci rzeczy klienta. Zaawansowanym procesem jest zlokalizowanie idealnej siatki P stworzonej przez wektor pᵤ i sieci Q stworzonej przez wektor qᵢ, tak aby ograniczyć cały kwadratowy błąd pomiędzy oczekiwanymi ocenami rᵤᵢ’ a rzeczywistymi ocenami rᵤᵢ. Podobnie, dodano regulację L2, aby przeciwdziałać przerostowi wektorów klienta i rzeczy. Podobnie bardzo regularne jest włączanie określenia predyspozycji, które w większości ma 3 istotne segmenty: normalna ocena wszystkich rzeczy μ, normalna ocena rzeczy I mniej μ (zauważona jako bᵤ), normalna ocena klienta u mniej u (zauważona jako bᵢ).