Ottenere la Matematica e l’Applicazione in Analitica per entrambi i termini…

Covarianza e correlazione sono due termini usati in modo significativo nel campo della statistica e della teoria della probabilità. La maggior parte degli articoli e della letteratura sulla probabilità e la statistica presuppongono una comprensione di base di termini come mezzi, deviazione standard, correlazioni, dimensioni del campione e covarianza. Lo scopo dell’articolo è quello di definire i termini: matrici di correlazione e covarianza, differenziare tra i due e comprendere l’applicazione dei due nel campo dell’analisi e dei dataset.

Demistificare i termini

In parole povere, entrambi i termini misurano la relazione e la dipendenza tra due variabili. “Covarianza” = la direzione della relazione lineare tra le variabili. Correlazione’, invece, misura sia la forza che la direzione della relazione lineare tra due variabili. La correlazione è una funzione della covarianza. Ciò che le distingue è il fatto che i valori di correlazione sono standardizzati, mentre i valori di covarianza non lo sono. Si può ottenere il coefficiente di correlazione di due variabili dividendo la covarianza di queste variabili per il prodotto delle deviazioni standard degli stessi valori. Se la definizione di Deviazione Standard viene rivista, essa misura essenzialmente la variabilità assoluta della distribuzione di un insieme di dati. Quando si dividono i valori di covarianza per la deviazione standard, essenzialmente scala il valore fino ad un intervallo limitato da -1 a +1. Questo è precisamente il campo dei valori di correlazione.

Definizione matematica dei termini

Vediamo ora le definizioni matematiche di questi termini.

Covarianza

La covarianza di due variabili (x e y) può essere rappresentata come cov(x,y). Se E[x] è il valore atteso o la media di un campione ‘x’, allora cov(x,y) può essere rappresentata come segue:

https://miro.medium.com/max/1152/1*m6zNZhMRkK-Kqms4OPb91g.jpeg

l’espressione può essere scritta nel seguente modo:

https://miro.medium.com/max/1152/1*TzQSHnkAazmLxnZkilORlQ.jpeg

nell’immagine qui sopra, ‘s²’ o varianza campionata è fondamentalmente la covarianza di una variabile con se stessa. Questo termine può essere definito anche nel modo seguente:

https://miro.medium.com/max/1152/1*bgQq0eahJWAbTdahIcxMLA.jpeg

Nella formula di cui sopra, il numeratore dell’equazione(A) è chiamato la somma delle deviazioni al quadrato. Nell’equazione(B) con due variabili x e y, è chiamata la somma dei prodotti incrociati. Nella formula di cui sopra, n è il numero di campioni nel set di dati. Il valore (n-1) indica i gradi di libertà.

Per spiegare quali sono i gradi di libertà, facciamo un esempio. In un insieme di 3 numeri con la media come 10 e due delle tre variabili come 5 e 15, c’è solo una possibilità del valore che il terzo numero può assumere, cioè 10. In un insieme di 3 numeri con la stessa media, per esempio: 12,8 e 10 o diciamo 9,10 e 11, c’è solo un valore ogni 2 valori dati nell’insieme. Essenzialmente si possono cambiare i due valori qui e il terzo valore si fissa da solo. Il grado di libertà qui è 2. Essenzialmente, il grado di libertà è il numero di punti di dati indipendenti che sono andati a calcolare la stima. Come vediamo nell’esempio precedente, non è necessariamente uguale al numero di elementi del campione (n).

Correlazione

Il coefficiente di correlazione è noto anche come coefficiente di correlazione prodotto-persona del coefficiente di correlazione di Pearson. Come già detto, si ottiene dividendo la covarianza delle due variabili per il prodotto delle loro deviazioni standard. La rappresentazione matematica della stessa può essere mostrata come segue:

https://miro.medium.com/max/1152/1*nu-A97kSxnDG4z4fVPQYKA.jpeg

I valori del coefficiente di correlazione possono variare da -1 a +1. Più è vicino a +1 o -1, più le due variabili sono correlate. Un segno positivo indica la direzione della correlazione, cioè se una delle due variabili aumenta, si suppone che aumenti anche l’altra variabile.

Rappresentazione della matrice di dati di covarianza e correlazione

Per una matrice di dati, X può essere rappresentato come segue:

https://miro.medium.com/max/1152/1*ue_BL0eV2rgH2gA53MOdMA.jpeg

un vettore “xj” implicherebbe fondamentalmente un (n × 1) vettore estratto dalla colonna j-esimo di X dove j appartiene all’insieme (1,2,…,p). Allo stesso modo “xi” rappresenta il vettore (1 × p) dalla i-esima riga di X. Qui “i” può prendere un valore dall’insieme (1,2,…,n). Si può anche interpretare X come un array di variabili dove ‘xij’ è la j-esima variabile (colonna) raccolta dall’i-esima voce (riga). Per facilità di riferimento, chiamiamo le righe come item/soggetti e le colonne come variabili. Vediamo ora la media di una colonna nella matrice dei dati qui sopra:

https://miro.medium.com/max/1152/1*Q-WjLMBfYRiWxC7Aj4lHSg.jpeg

https://miro.medium.com/max/1152/1*r6Caf-E_9JP-L5lvfouZhA.jpeg

Usando il concetto di cui sopra, definiamo ora il significato della riga. È fondamentalmente la media degli elementi presenti nella riga specificata.

Ora che abbiamo la metrica di cui sopra, sarà più facile definire la matrice di covarianza (S)

https://miro.medium.com/max/1152/1*qqXEtdSeHpFgfjGhEoTzag.jpeg

Nella matrice di cui sopra, vediamo che la dimensione della matrice di covarianza è p × p. Si tratta essenzialmente di una matrice simmetrica, cioè una matrice quadrata che è uguale alla sua trasposizione (S`). I termini che costruiscono la matrice di covarianza sono chiamati le varianze di una data variabile, formando la diagonale della matrice o la covarianza di 2 variabili che riempiono il resto dello spazio. La variabile j-th covarianza con la variabile k-th è equivalente alla covarianza della variabile k-th con la variabile j-th, cioè ‘sjk’= ‘skj’.

La matrice di covarianza può essere creata dalla matrice di dati nel modo seguente: Qui, ‘Xc’ è una matrice centrata che ha il rispettivo significato di colonna sottratto da ogni elemento. Usando questo come componente centrale, la matrice di covarianza ‘S’ è il prodotto della trasposizione di ‘Xc’ e ‘Xc’ stessa, che viene poi divisa per il numero di elementi o righe (‘n’) nella matrice dati.

Prima di andare oltre, esaminiamo il concetto di varianza del campione o s-squared (s²).  Da questo valore possiamo ricavare la deviazione standard di una serie di dati. La matematica definisce il valore “s” come la deviazione standard del set di dati.  Esso indica fondamentalmente il grado di dispersione o diffusione dei dati intorno alla sua media.

Allo stesso modo, utilizzando la stessa matrice di dati e la stessa matrice di covarianza, definiamo la matrice di correlazione (R):

https://miro.medium.com/max/1091/1*NxfM7QrerSHbvog71Gc6pA.jpeg

Come vediamo qui, la dimensione della matrice di correlazione è di nuovo p × p. Ora, se guardiamo i singoli elementi della matrice di correlazione, la diagonale principale include tutti gli 1. Ciò indica che la correlazione di un elemento con se stesso è 1, o il valore più alto possibile. Questo è logico e intuitivo. Gli altri elementi ‘rjk’ sono il coefficiente di correlazione di Pearson tra due valori: ‘xj’ e ‘xk’. Come abbiamo visto prima, ‘xj’ denota la colonna j-esima della matrice dei dati, X. Passando al modo in cui la matrice di correlazione può essere ottenuta dalla matrice dei dati:

https://miro.medium.com/max/1152/1*9wQEaguas_XVpsZ42ag0jg.jpeg

Xs’ nella definizione di cui sopra è chiamata matrice scalare o matrice standardizzata. Qui vediamo che la matrice di correlazione può essere definita come il prodotto della trasposizione della matrice scalare con se stessa, divisa per ‘n’. Rivisitando la definizione di deviazione standard dall’alto, vediamo che ogni elemento (simile alla matrice di covarianza di cui sopra) della matrice standardizzata ‘Xs’ viene diviso per la corrispondente deviazione standard della colonna. Ciò rafforza la nostra comprensione del fatto che la matrice di correlazione è una derivata standardizzata o scalare della matrice di covarianza.

Covarianza contro Correlazione

La formula della covarianza prende le unità dal prodotto delle unità delle due variabili. D’altra parte, la correlazione è adimensionale. È una misura senza unità della relazione tra le variabili. Questo perché si divide il valore della covarianza per il prodotto delle deviazioni standard che hanno le stesse unità. Il valore della covarianza è influenzato dal cambiamento di scala delle variabili. Se tutti i valori della variabile data sono moltiplicati per una costante e tutti i valori di un’altra variabile sono moltiplicati per una costante simile o diversa, allora cambia anche il valore di covarianza. Tuttavia, facendo lo stesso, il valore della correlazione non è influenzato dal cambiamento di scala dei valori. Un’altra differenza tra covarianza e correlazione è l’intervallo di valori che possono assumere. I coefficienti di correlazione sono compresi tra -1 e +1, ma la covarianza può assumere qualsiasi valore tra -∞ e +∞.

Applicazione in Analitica

Ora che abbiamo finito con la teoria matematica, esploriamo come e dove può essere applicata nel campo dell’analisi dei dati. L’analisi delle correlazioni, come molti analisti saprebbero, è uno strumento vitale per la selezione delle caratteristiche e l’analisi multivariata nella preelaborazione ed esplorazione dei dati. La correlazione ci aiuta ad indagare e a stabilire relazioni tra le variabili. Viene utilizzata nella selezione delle caratteristiche prima di qualsiasi tipo di modellazione statistica o di analisi dei dati.

La PCA o l’analisi dei componenti principali è un’applicazione significativa della stessa. Quindi come decidiamo cosa usare? Matrice di correlazione o matrice di covarianza? In termini semplici, si consiglia di utilizzare la matrice di covarianza quando le variabili sono su scale simili e la matrice di correlazione quando le scale delle variabili sono diverse.

Cerchiamo ora di capire questo con l’aiuto di esempi. Per aiutarvi nell’implementazione, se necessario, mi occuperò degli esempi sia in R che in Python. Vediamo prima il primo esempio in cui vediamo come i risultati PCA differiscono quando sono calcolati rispettivamente con la matrice di correlazione e la matrice di covarianza. Per il primo esempio qui, prenderemo in considerazione il set di dati ‘mtcars’ in R.

# Caricamento del set di dati in ambiente R locale

dati(mtcar)

# Stampa le prime 10 righe del set di dati

testa(mtcar, 10)

https://miro.medium.com/max/451/1*rtBTmAD1UYW1wIwA_Ww_mg.png

Dall’immagine sopra riportata, vediamo che tutte le colonne sono numeriche e quindi possiamo procedere con l’analisi. Utilizzeremo la funzione prcomp() del pacchetto ‘stats’ per lo stesso.