Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Cosa sono la correlazione e la causalità e come sono straordinarie?

Almeno due fattori visti come correlati, in un contesto di fatto, se le loro qualità cambiano in modo tale che, come la stima di una variabile aumenta o diminuisce, così fa la stima dell’altra variabile (nonostante il fatto che potrebbe essere il contrario).

Ad esempio, per i due fattori “ore lavorate” e “salario guadagnato” vi è una connessione tra i due se l’aumento delle ore lavorate è legato ad un incremento della retribuzione guadagnata. Nel caso in cui si considerino i due fattori “costo” e “guadagno”, in quanto il costo della merce espande la capacità di un individuo di acquistare questi prodotti diminuisce (aspettandosi una retribuzione consistente).

La correlazione è una misura fattuale (comunicata sotto forma di numero) che descrive la dimensione e la portata di una connessione tra almeno due fattori. Una relazione tra i suoi fattori, in ogni caso, non implica, di conseguenza, che l’aggiustamento di una variabile sia la ragione dell’aggiustamento nelle stime dell’altra variabile.

La causalità dimostra che un’occasione è l’effetto collaterale dell’evento dell’altra occasione; per esempio, c’è un nesso causale tra le due occasioni. Anche a questo si fa riferimento come a circostanze e risultati logici.

Ipoteticamente, la distinzione tra i due tipi di connessioni è tutt’altro che difficile da distinguere – un’attività o un evento può causarne un altro (ad esempio il fumo provoca un’espansione del pericolo di creare una crescita maligna polmonare), oppure può relazionarsi con un altro (ad esempio il fumo è correlato all’abuso di alcolici, ma non causa dipendenza da alcolici). In pratica, sia come sia, resta difficile costruire in modo inequivocabile le circostanze e i risultati logici, contrastando e impostando il rapporto.

Per quale motivo la correlazione e la causalità sono significative?

L’obiettivo di molte ricerche o indagini logiche è quello di distinguere il grado in cui una variabile si identifica con un’altra variabile. Per esempio:

C’è una connessione tra il livello di formazione di un individuo e il suo benessere?

Il possesso di animali domestici è legato al fatto di vivere più a lungo?

Lo sforzo di promozione di un’organizzazione ha incrementato le loro offerte di articoli?

Queste e diverse indagini stanno indagando se esiste una connessione tra i due fattori, e nella remota possibilità che ci sia una relazione, a quel punto questo può controllare l’ulteriore esame della ricerca se un’attività provoca l’altra. Ottenendo la connessione e la causalità, si ritiene che gli accordi e i progetti che prevedono di raggiungere un risultato ideale siano meglio focalizzati su di essi.

Come si stima la connessione?

Per due fattori, una connessione fattuale è stimata dall’utilizzo di un Coefficiente di Relazione, a cui si riferisce l’immagine (r), che è un numero solitario che rappresenta il livello di connessione tra due fattori.

Il coefficiente ha un valore numerico che va da +1,0 a – 1,0, il che dà un segno della qualità e dell’andamento della relazione.

Nella remota possibilità che il coefficiente di correlazione abbia un valore negativo (sotto 0), esso dimostra una connessione negativa tra i fattori. Ciò implica che i fattori si muovono in modo inverso (cioè quando si costruiscono diverse riduzioni, o quando si diminuiscono diversi incrementi).

Nella remota possibilità che il coefficiente di correlazione abbia un valore positivo (oltre 0), esso dimostra una connessione positiva tra i fattori che implica che i due fattori si muovono di coppia, ad esempio quando una variabile diminuisce l’altra diminuisce ulteriormente, o quando una variabile costruisce l’altra aumenta allo stesso modo.

Se il coefficiente di connessione è 0, ciò dimostra che non vi è alcuna connessione tra i fattori (una variabile può rimanere stabile mentre diversi incrementi o diminuzioni).

Il coefficiente di connessione è una misura utile, ma ha le sue limitazioni:

I coefficienti di correlazione sono tipicamente collegati alla stima di una relazione retta.

Per esempio, nella remota possibilità che si analizzino le ore lavorate e la paga guadagnata per un commerciante che fa pagare una tariffa oraria per il suo lavoro, c’è un rapporto diretto (o linea retta) poiché con ogni ora di lavoro in più la paga aumenta di una somma affidabile.

Ipotizzando, in ogni caso, che gli oneri a carico del commerciante dipendenti da un sottostante facciano uscire la spesa e un onere orario che logicamente diminuisce a mano a mano che l’attività si esaurisce, il collegamento tra le ore lavorate e lo stipendio sarebbe non rettilineo, dove il coefficiente di relazione potrebbe essere più simile a 0.

È necessario prestare attenzione quando si traduce la stima di “r”. È possibile scoprire che le connessioni tra sono numerosi fattori, tuttavia le connessioni possono essere dovute a fattori diversi e non hanno nulla a che fare con i due fattori presi in considerazione.

Per esempio, le offerte di yogurt gelato e le offerte di protezione solare possono aumentare e diminuire nell’arco di un anno in modo preciso, ma sarebbe un rapporto che sarebbe dovuto all’impatto del periodo (cioè un clima più fumoso vede un’espansione negli individui che indossano la protezione solare proprio come mangiano il dessert) invece che a causa di qualsiasi connessione immediata tra le offerte di protezione solare e lo yogurt gelato.

Il coefficiente di connessione non dovrebbe essere utilizzato per dire nulla riguardo alle circostanze e alla relazione logica dei risultati. Osservando la stima di ‘r’, possiamo dedurre che due fattori sono collegati, ma che la stima di ‘r’ non ci fa sapere se una variabile è stata la ragione dell’aggiustamento nell’altra.

Con quali mezzi sarebbe possibile impostare il nesso di causalità?

La causalità è il territorio delle intuizioni che normalmente vengono fraintese e abusate dagli individui nella convinzione confusa che, sulla base del fatto che le informazioni mostrano una connessione che c’è fondamentalmente una relazione causale nascosta.

L’utilizzo di un rapporto controllato è il metodo migliore per stabilire la causalità tra i fattori. In un rapporto controllato, l’esempio o la popolazione fa parte di due, e le due riunioni si equivalgono praticamente in ogni modo. I due incontri a quel punto ottengono vari farmaci, e i risultati di ogni incontro vengono valutati.

Per esempio, nella ricerca terapeutica, un gruppo può ottenere un trattamento falso mentre l’altro gruppo riceve un altro tipo di prescrizione. Nel caso in cui i due incontri abbiano dato risultati sensibilmente diversi, i vari incontri possono aver causato i vari risultati.

Per ragioni morali, ci sono punti di confinamento nell’utilizzo di indagini controllate; non sarebbe opportuno utilizzare due riunioni equivalenti e far sì che una di esse viva un movimento distruttivo mentre l’altra no. Per sconfiggere questa circostanza, gli esami osservazionali sono spesso utilizzati per ricercare il nesso e la causalità per il numero di abitanti in intrighi. Gli esami possono dare un’occhiata alle pratiche e ai risultati dei raduni e osservare le progressioni dopo un certo tempo.

L’obiettivo di questi esami è quello di fornire dati misurabili da aggiungere a diverse fonti di dati che sarebbero necessari per stabilire se esiste una causalità tra due fattori.

Mentre vari individui possono avere diverse linee di base nel dare le valutazioni, alcune persone, in generale, danno punteggi alti in generale, alcune sono veramente esigenti, nonostante il fatto che sono contente delle cose. Per sfuggire a questa tendenza, possiamo sottrarre la valutazione normale di ogni cliente di tutte le cose quando registriamo la valutazione normale ponderata, e includerla di nuovo per il cliente target, apparso come inferiore.

Due modi per calcolare la somiglianza sono la Correlazione di Pearson e la Somiglianza del Coseno.

In sostanza, il pensiero è quello di individuare i clienti più comparativi con il vostro cliente obiettivo (i vicini più vicini) e ponderare le loro valutazioni di una cosa come la previsione della valutazione di questa cosa per il cliente target.

Senza sapere nulla delle cose e dei clienti stessi, pensiamo che due clienti siano comparativi quando danno una cosa simile valutazioni comparabili. Analogamente, per la CF basata su Thing, dichiariamo che due cose sono paragonabili quando ricevono valutazioni comparative da un cliente equivalente. A quel punto, faremo delle aspettative per un cliente obiettivo su una cosa accertando le normali valutazioni ponderate sulla maggior parte delle X cose comparabili di questo cliente. Un elemento chiave del margine di manovra della CF basata sulle cose è la solidità, ovvero che le valutazioni su una determinata cosa non cambieranno sostanzialmente nel tempo, a differenza dei gusti dei singoli individui.

Ci sono molti vincoli di questa tecnica. Non affronta bene la scarsità quando nessuno nella zona ha valutato una cosa che è quella che si cerca di anticipare per il cliente target. Allo stesso modo, non è competente dal punto di vista computazionale come lo sviluppo del numero di clienti e di oggetti.

Fattorizzazione del quadro di riferimento

Poiché la scarsità e la versatilità sono le due maggiori difficoltà per la strategia standard di CF, si tratta di una tecnica ulteriormente sviluppata che scompone la prima rete inadeguata in reticoli a reticoli a bassa dimensione con variabili / luci inattive e meno scarsità. Questa è la fattorizzazione degli reticoli.

Oltre ad approfondire i temi della sparsità e della versatilità, c’è un naturale chiarimento del perché abbiamo bisogno di tralicci a bassa dimensione per parlare dell’inclinazione dei clienti. Un cliente ha dato grandi valutazioni al Simbolo del cinema, alla Gravità e all’Iniziazione. Non sono davvero 3 supposizioni separate, ma indicano piuttosto che questo cliente potrebbe essere favorevole ai film di fantascienza e che ci potrebbero essere molti altri film di fantascienza che questo cliente potrebbe volere. A differenza dei film espliciti, i momenti salienti inerti sono comunicati da tratti di livello più significativo, e la classe di fantascienza è uno dei momenti salienti inattivi di questa situazione. Ciò che la fattorizzazione a reticolo, alla fine, ci dà è come molti clienti siano allineati con molti punti salienti inerti, e quanto un film si inserisce in questa disposizione di punti salienti inattivi. Il vantaggio rispetto al quartiere più vicino è che, nonostante il fatto che due clienti non abbiano valutato alcun film equivalente, è ancora concepibile scoprire la somiglianza tra loro nella remota possibilità che condividano gli stessi gusti di base, sempre inerti.

Per percepire come una griglia viene fattorizzata, la prima cosa da comprendere è la decomposizione del valore solitario (SVD). In vista della matematica polinomiale diretta, qualsiasi griglia R può essere disintegrata in 3 reti U, Σ, e V. Continuando ad utilizzare il modello del cinema, U è una rete di elementi inattivi n × r client, V è una rete di elementi inerti m × r. Σ è un framework r × r inclinato contenente le stime solitarie di una rete unica, parlando solo di quanto sia significativo un particolare elemento per prevedere l’inclinazione del cliente.

Per ordinare le stime di Σ diminuendo la stima totale e troncare la rete Σ alle prime misure k (k qualità solitarie), possiamo rifare la griglia come quadro A. La determinazione di k dovrebbe assicurare che A possa catturare la maggior parte delle fluttuazioni all’interno del primo quadro R, quindi An è la stima di R, A ≈ R. Il contrasto tra An e R è l’errore che deve essere limitato. Questa è in realtà l’idea di Guideline Part Investigation.

Nel punto in cui la griglia R è spessa, U e V potrebbero essere fattorizzate in modo efficace dal punto di vista diagnostico. Sia come sia, una rete di valutazioni del cinema è troppo inadeguata. Nonostante il fatto che ci siano alcune strategie di iscrizione per riempire le qualità mancanti, andremo ad un modo di programmazione per affrontare semplicemente vivere con quelle qualità mancanti e scoprire le reti di fattori U e V. Piuttosto che fattorizzare R per mezzo di SVD, stiamo cercando di scoprire U e V legittimamente con l’obiettivo che quando U e V sono aumentati di nuovo insieme il reticolo di rendimento R’ è la stima più vicina di R e non più una rete scarsa. Questa stima numerica è tipicamente realizzata con la Fattorizzazione della griglia non negativa per i quadri di raccomandazione, poiché non ci sono qualità negative nelle valutazioni.

Vedi la ricetta qui sotto. Dando uno sguardo al rating previsto per il cliente esplicito e cosa, cosa I è notato come un vettore qᵢ, e cliente u è notato come un vettore pᵤ con l’obiettivo finale che il risultato speck di questi due vettori è il rating previsto per il cliente u su cosa I. Questo valore è esposto nel quadro R’ a push u e segmento I

Come possiamo trovare qᵢ e pᵤ ottimali? Come la maggior parte delle attività di machine learning, viene definita una funzione di perdita per ridurre al minimo il costo degli errori.

rᵤᵢ è la vera valutazione di una rete di clienti unica nel suo genere. Il processo di avanzamento è quello di individuare la griglia ideale P creata dal vettore pᵤ e la rete Q fatta dal vettore qᵢ in modo da limitare l’intero errore quadrato tra le valutazioni anticipate rᵤᵢ’ e le valutazioni autentiche rᵤᵢ. Allo stesso modo, è stata aggiunta la regolarizzazione L2 per contrastare l’overfitting dei vettori cliente e cosa. E’ anche molto regolare l’inserimento del termine di predisposizione che per la maggior parte ha 3 segmenti significativi: valutazione normale di tutte le cose μ, valutazione normale della cosa I meno μ (nota come bᵤ), valutazione normale data dal cliente u meno u (nota come bᵢ).