Wat zijn correlatie en causaliteit en hoe zijn ze buitengewoon?

Minstens twee factoren die in een feitelijke setting als gerelateerd worden beschouwd, als hun kwaliteiten zodanig veranderen dat de schatting van de ene variabele toeneemt of afneemt, en de schatting van de andere variabele (ondanks het feit dat het andersom zou kunnen zijn).

Voor de twee factoren “gewerkte uren” en “verdiende loon” is er bijvoorbeeld een verband tussen beide als de uitbreiding van het aantal gewerkte uren verband houdt met een verhoging van het verdiende loon. In het geval dat we de twee factoren “kosten” en “verkrijgen van macht” overwegen, omdat de kosten van de goederen de capaciteit van een individu om deze producten te kopen vermindert (in de verwachting van een consistente beloning).

Correlatie is een feitelijke maatstaf (gecommuniceerd als een getal) die de omvang en de draagkracht van een verband tussen ten minste twee factoren weergeeft. Een verband tussen de factoren betekent in ieder geval niet dat de aanpassing van de ene variabele de reden is voor de aanpassing in de schattingen van de andere variabele.

Causatie toont aan dat de ene keer het nawerk is van de gebeurtenis van de andere keer; er is bijvoorbeeld een oorzakelijk verband tussen de twee gelegenheden. Dit wordt ook wel aangeduid als omstandigheden en logische resultaten.

Hypothetisch gezien is het onderscheid tussen de twee soorten verbanden allesbehalve moeilijk te maken – een activiteit of gebeurtenis kan een andere veroorzaken (bijvoorbeeld roken veroorzaakt een uitbreiding van het gevaar voor het ontstaan van longkwaadaardige groei), of het kan verband houden met een andere (bijvoorbeeld roken is gerelateerd aan drankmisbruik, maar het veroorzaakt geen drankverslaving). Praktisch gezien, zij het dat het moeilijk blijft om onmiskenbaar omstandigheden en logische resultaten op te bouwen, te contrasteren en de relatie op te zetten.

Om welke reden zijn correlatie en causaliteit significant?

Het doel van veel onderzoek of logisch onderzoek is om de mate waarin de ene variabele zich identificeert met een andere variabele te onderscheiden. Bijvoorbeeld:

Is er een verband tussen het opleidingsniveau van een individu en zijn of haar welzijn?

Is huisdierbezit gerelateerd aan het langer leven?

Heeft het bevorderen van de inspanning van een organisatie hun item deals verhoogd?

Deze en andere onderzoeken onderzoeken of er een verband bestaat tussen de twee factoren, en de kans dat er een verband is, kan op dat moment het verdere onderzoek naar de vraag of de ene activiteit de andere veroorzaakt, sturen. Door verbinding en causaliteit te krijgen, wordt gekeken naar afspraken en projecten die een ideaal resultaat beogen te bereiken.

Hoe wordt de samenhang ingeschat?

Voor twee factoren wordt een feitelijke verbinding geschat door het gebruik van een Relatiecoëfficiënt, aangesproken door het beeld (r), dat een eenduidig getal is dat het niveau van verbinding tussen twee factoren weergeeft.

De numerieke waarde van de coëfficiënt loopt van +1,0 tot – 1,0, wat een teken is van de kwaliteit en het verloop van de relatie.

De kans dat de correlatiecoëfficiënt een negatieve waarde heeft (onder 0) toont een negatief verband tussen de factoren aan. Dit houdt in dat de factoren zich omgekeerd bewegen (d.w.z. wanneer men verschillende reducties opbouwt, of wanneer men verschillende verhogingen afneemt).

De kans dat de correlatiecoëfficiënt een positieve waarde heeft (meer dan 0) geeft aan dat er een positief verband bestaat tussen de factoren die impliceren dat de twee factoren een paar bewegen, bijvoorbeeld als de ene variabele de andere extra vermindert, of als de ene variabele de andere evenzo verhoogt.

Als de verbindingscoëfficiënt 0 is, toont dit aan dat er geen verband is tussen de factoren (de ene variabele kan stabiel blijven terwijl de andere toeneemt of afneemt).

Hoewel de aansluitingscoëfficiënt een nuttige maatstaf is, heeft deze zijn beperkingen:

Correlatiecoëfficiënten zijn typisch verbonden met het schatten van een rechte relatie.

Bijvoorbeeld, bij de kans dat u de gewerkte uren analyseert en het verdiende loon voor een handelaar die een uurtarief voor zijn werk in rekening brengt, is er een directe (of lineaire) relatie, aangezien het loon met elk extra gewerkte uur zal stijgen met een betrouwbare som.

Ervan uitgaande dat, in ieder geval, de handelaars die afhankelijk zijn van een onderliggend tarief de kosten en een uurtarief dat logischerwijs vermindert naarmate de activiteit langer duurt, zou het verband tussen de gewerkte uren en het salaris niet-rechtstreeks zijn, waarbij de relatiecoëfficiënt meer op 0 zou kunnen lijken.

Voorzichtigheid is geboden bij het vertalen van de schatting van ‘r’. Het is denkbaar om verbanden te ontdekken tussen tal van factoren, hoe dan ook, de verbanden kunnen door verschillende factoren worden gelegd en hebben niets te maken met de twee factoren die in aanmerking worden genomen.

Zo kan het aanbod van bevroren yoghurt en het aanbod van zonnebrandcrème in de loop van een jaar precies toenemen en verminderen, maar het zou een relatie zijn die te maken heeft met de gevolgen van de periode (dat wil zeggen dat meer rokersklimaat een uitbreiding ziet in individuen die zonnebrandcrème dragen, net als het eten van het dessert) in plaats van met een direct verband tussen het aanbod van zonnebrandcrème en bevroren yoghurt.

De verbindingscoëfficiënt moet niet worden gebruikt om iets te zeggen over de omstandigheden en logische resultaten relatie. Door te kijken naar de schatting van ‘r’, kunnen we concluderen dat twee factoren met elkaar verbonden zijn, maar dat ‘r’ waardering ons niet laat weten of de ene variabele de reden was voor de aanpassing in de andere.

Met welke middelen zou de causaliteit kunnen worden ingesteld?

Causaliteit is het territorium van inzichten die normaal gesproken verkeerd worden geïnterpreteerd en misbruikt door individuen in de gemengde overtuiging dat op grond van de informatie een verband blijkt te bestaan dat er fundamenteel een verborgen causaal verband bestaat.

Het gebruik van een gecontroleerd rapport is de beste methode om causaliteit tussen factoren op te zetten. In een gecontroleerd rapport maakt het voorbeeld of de populatie deel uit van twee, waarbij de twee bijeenkomsten in vrijwel alle opzichten gelijkwaardig zijn. De twee bijeenkomsten krijgen op dat moment verschillende medicijnen en de resultaten van elke bijeenkomst worden geëvalueerd.

In therapeutisch onderzoek kan de ene bijeenkomst bijvoorbeeld een nepbehandeling krijgen, terwijl de andere bijeenkomst een ander soort recept krijgt. In het geval dat de twee bijeenkomsten merkbaar verschillende resultaten hebben, kunnen de verschillende ontmoetingen de verschillende resultaten hebben veroorzaakt.

Om morele redenen zijn er punten van beperking van het gebruik van gecontroleerde onderzoeken; het zou niet geschikt zijn om twee bijeenkomsten te gebruiken en een ervan een destructieve beweging te laten ervaren terwijl de andere dat niet doet. Om deze omstandigheid te verslaan, worden observationele onderzoeken vaak gebruikt om het verband en de oorzaak van het aantal inwoners in intrige te onderzoeken. De onderzoeken kunnen een blik werpen op de praktijken en resultaten van de bijeenkomsten en na verloop van tijd kijken naar het verloop van de bijeenkomsten.

Het doel van deze onderzoeken is om meetbare gegevens te geven om aan verschillende bronnen gegevens toe te voegen die nodig zijn voor de manier waarop de causaliteit tussen twee factoren kan worden opgebouwd.

https://miro.medium.com/max/652/1*mM089Lta5X6zkUkULcO9aA.png

https://miro.medium.com/max/862/1*mTRUakSIWmo9OX6D2HakWQ.png

Hoewel verschillende individuen verschillende basislijnen kunnen hebben bij het geven van beoordelingen, zullen een paar mensen over het algemeen hoge scores geven, sommige zijn echt veeleisend ondanks het feit dat ze tevreden zijn met de dingen. Om deze neiging te omzeilen, kunnen we elke klant de normale waardering van alle dingen bij het registreren van gewogen normaal, en neem het terug voor de doelgroep, verscheen als onder.

https://miro.medium.com/max/902/1*gLbwJts3g_v2TbPRhFoNfA.png

Twee manieren om de gelijkenis te berekenen zijn Pearson Correlation en Cosine Similarity.

https://miro.medium.com/max/1130/1*Xvf2o6kE4VCuueMPikxZ_A.png

https://miro.medium.com/max/1013/1*6HISTi8SjbD2VHicoZwKpA.png

In wezen is de gedachte om de meest vergelijkende klanten te lokaliseren naar uw objectieve klant (naaste buren) en hun beoordelingen van een ding te wegen als de prognose van de beoordeling van dit ding voor de doelcliënt.

Zonder iets te weten over de dingen en de cliënten zelf, denken we dat twee cliënten vergelijkbaar zijn als ze een vergelijkbare waardering geven. Vergelijkbaar, voor Thing gebaseerde CF, stellen we dat twee dingen vergelijkbaar zijn wanneer ze vergelijkende beoordelingen krijgen van een gelijkwaardige cliënt. Op dat moment maken we verwachtingen voor een objectieve klant op een ding door het vaststellen van gewogen normaal van beoordelingen op de meeste X vergelijkbare dingen van deze klant. Een belangrijk aspect van het op Thing gebaseerde CF is de degelijkheid, namelijk dat de beoordelingen op een bepaald ding in wezen geen extra tijd zullen veranderen, in tegenstelling tot de smaken van individuen.

https://miro.medium.com/max/737/1*dPzd5-dScFplypBGeSwgUw.png

Er zijn veel beperkingen van deze techniek. Het gaat niet goed om met spaarzaamheid als niemand in de omgeving een ding waardeert dat je probeert te anticiperen voor de beoogde klant. Ook is het niet computationeel vaardig als de ontwikkeling van het aantal klanten en items.

Raamwerkfactorisering

Aangezien spaarzaamheid en veelzijdigheid de twee grootste moeilijkheden zijn voor de standaard CF-strategie, komt het op een verder ontwikkelde techniek die het eerste ontoereikende netwerk afbreekt tot laagdimensionale roosters met inactieve variabelen/hoge lichten en minder spaarzaamheid. Dat is Lattice Factorization.

Naast het doorgronden van de kwesties van spaarzaamheid en veelzijdigheid, is er een natuurlijke verduidelijking van waarom we laagdimensionale roosters nodig hebben om de neiging van de klanten aan te spreken. Een klant gaf grote evaluaties aan film symbool, zwaartekracht en initiatie. Het zijn niet echt 3 afzonderlijke veronderstellingen, maar geven eerder aan dat deze klant misschien wel steun geeft aan sciencefictionfilms en dat er misschien nog veel meer sciencefictionfilms zijn die deze klant zou willen. In tegenstelling tot expliciete films, worden inerte hoogtepunten gecommuniceerd door meer significante niveau-eigenschappen, en Science fiction klasse is een van de ideële hoogtepunten voor deze situatie. Wat de vakwerkfactorisering uiteindelijk oplevert, is hoe veel van een opdrachtgever met veel inerte hoogtepunten wordt gecommuniceerd, en hoeveel een film in deze opstelling van inactieve hoogtepunten past. Het voordeel ten opzichte van de standaard dichtstbijzijnde buurt is dat ondanks het feit dat twee klanten geen equivalente films hebben beoordeeld, het vooralsnog denkbaar is om de gelijkenis tussen hen te ontdekken op de buitenkans dat ze de vergelijkbare basissmaken, wederom inerte highlights, delen.

https://miro.medium.com/max/853/1*EkKGqn-vM0OLbOkkdqT_xg.png

Om waar te nemen hoe een raster wordt gefaciliteerd, is het eerste dat moet worden begrepen Solitary Worth Decomposition (SVD). Met het oog op Directe Polynomiale wiskunde kan elk echt raster R worden gedesintegreerd in 3 netwerken U, Σ, en V. Als we het gebruik van bewegende beelden blijven maken, is U een n × r client idle-element-netwerk, V is een m × r-film inertelement-raamwerk. Σ is een r × r schuin kader dat de eenzame schattingen van een uniek netwerk bevat, alleen al om aan te geven hoe belangrijk een bepaald element is om de neiging van de cliënt te voorzien.

Om de schattingen van Σ te sorteren door de totale waardering te verminderen en het netwerk Σ af te snijden tot de eerste k-metingen ( k solitaire kwaliteiten), kunnen we het raster opnieuw maken als raamwerk A. De bepaling van k moet ervoor zorgen dat A het overgrote deel van de fluctuaties binnen het eerste raamwerk R kan opvangen, dus is An de schatting van R, A ≈ R. Het contrast tussen An en R is de fout die beperkt moet worden. Dit is eigenlijk het idee van Richtsnoer Deelonderzoek.

https://miro.medium.com/max/753/1*4gP81YRmt5gsixQL0MZuaw.png

Op het moment dat raster R dik is, kunnen U en V diagnostisch effectief worden gefactoriseerd. Hoe dan ook, een netwerk van filmbeoordelingen is te ontoereikend. Ondanks het feit dat er enkele toewijzingsstrategieën zijn om ontbrekende kwaliteiten in te vullen, zullen we naar een programmeerwijze gaan om met die ontbrekende kwaliteiten te leven en factornetwerken U en V te ontdekken. In plaats van factorisering van R door middel van SVD, proberen we U en V te ontdekken met als legitiem doel dat wanneer U en V weer samen toenemen, het opbrengstrooster R’ de dichtstbijzijnde schatting van R is en niet langer een schaars netwerk. Deze numerieke schatting wordt meestal uitgevoerd met Non-Negative Grid Factorization voor recommender frameworks aangezien er geen negatieve kwaliteiten in de evaluaties zitten.

Zie het recept hieronder. Als je kijkt naar de verwachte waardering voor expliciete klant en ding, wordt ding I genoteerd als een vector qᵢ, en client u als een vector pᵤ met als einddoel dat het stipresultaat van deze twee vectoren de verwachte waardering voor client u op ding I is. Deze waarde wordt tentoongesteld in het raamwerk R’ bij push u en segment I

https://miro.medium.com/max/828/1*3jQ5kqtSftR_SvgABjMoCw.png

Hoe vinden we optimaal qᵢ en pᵤ? Zoals de meeste machinale leeropdrachten wordt een verliesfunctie gedefinieerd om de kosten van fouten tot een minimum te beperken.

https://miro.medium.com/max/1483/1*ycP7NKolvbjfyS_8hDB00Q.png

https://miro.medium.com/max/976/1*_QSX-UktbtY8AWTixYJfBQ.png

rᵤᵢ is de echte evaluatie van een uniek klantennetwerk. Vooruitgang proces is het lokaliseren van het ideale raster P gemaakt door vector pᵤ en netwerk Q gemaakt door vector qᵢ om zo de hele vierkante blunder tussen de verwachte evaluaties rᵤᵢ’ en de echte evaluaties rᵤᵢ te beperken. Ook is er een regularisatie van L2 toegevoegd om overfitting van client en thing vectoren tegen te gaan. Het is ook zeer regelmatig om predispositie term die voor het grootste deel heeft 3 belangrijke segmenten op te nemen: normale rating van alle dingen u, normale rating van wat ik minder u (genoteerd als bᵤ), normale rating gegeven door de klant u minder u (genoteerd als bᵢ).