Con algoritmi sempre più avanzati di machine learning e deep learning, è possibile risolvere quasi ogni problema con set di dati adeguati. Tuttavia, man mano che la complessità del modello aumenta, diventano difficili da interpretare. Quando si parla di interpretabilità dei modelli di apprendimento automatico, la prima cosa che viene in mente è la regressione lineare. La regressione lineare è un modello abbastanza semplice e facile da interpretare. Oltre ad essere semplice, include vari problemi di interpretabilità, specialmente in termini di violazioni delle assunzioni della regressione lineare. Si può anche fare riferimento alle assunzioni della Regressione Lineare come Multicollinearità.

Cos’è la multicollinearità?

In un modello di regressione, quando due o più di due variabili indipendenti sono correlate tra loro, ci si può riferire al modello come multicollinearità. Indica che si può prevedere una variabile indipendente con un’altra variabile indipendente in questo tipo di modello. Le variabili possono includere peso e altezza, consumo di acqua e reddito familiare, prezzo dell’auto e chilometraggio, tempo libero e tempo di studio, e altri.

Potete prendere qualsiasi variabile dalla vostra vita quotidiana. Per esempio, amate sgranocchiare patatine mentre guardate la televisione: il tasso di soddisfazione aumenta quando guardate più televisione e mangiate più patatine. Ora, quando consideri le cose che ti tengono occupato e ti rendono felice, quale attività troverai interessante e avrà un impatto maggiore sul tuo livello di felicità? Ti sentirai più felice quando mangi patatine o quando guardi la televisione?

Questo sarebbe difficile da misurare perché quando si guarda più televisione, si mangiano più patatine, e quando si mangiano più patatine, si deve guardare più televisione. Entrambe queste attività sono correlate tra loro. Sarà difficile determinare l’impatto di un’attività sull’altra per la felicità. Questo è il problema della multicollinearità. Ora scopriamo come si misura la multicollinearità con riferimento all’apprendimento automatico.

Tipi di multicollinearità

La multicollinearità consiste di due tipi diversi. Il primo tipo di multicollinearità è strutturale. È un sottoprodotto. Poiché si crea questa ipotesi con l’aiuto della variabile indipendente esistente, è possibile rintracciarla facilmente. La variabile indipendente x del primo tipo è al quadrato. Per esempio, se la multicollinearità strutturale considera che avete un set di dati e usate un log per normalizzare o scalare le caratteristiche. Il secondo tipo è la multicollinearità dei dati, che è più pericolosa di quella strutturale. Troverete questa multicollinearità più difficile da identificare e interpretare. Se state usando pandas data frame, esso incorporerà già questo tipo di multicollinearità.

Rilevare e rimuovere la multicollinearità

La soluzione ottimale per classificare la multicollinearità è il calcolo del Variance Inflation Factor equivalente ad ogni singola variabile nei dati. Comprendendo il Variance Inflation Factor, è possibile determinare se la variabile è prevedibile o meno. Per questo, userete altre variabili indipendenti. Possiamo capire il concetto con il seguente esempio:

Assumendo queste nove diverse variabili, potete calcolare il Variance Inflation Factor per la prima variabile, cioè V1. Per calcolare la variabile V1, dovete considerarla come una variabile obiettivo e isolarla da tutte le altre variabili. Trattare tutte le altre variabili come variabili predittive.

Usando le altre variabili, possiamo trovare il valore corrispondente di R2. Per trovare il valore, addestrate il vostro modello di regressione usando le variabili predittrici. Potete calcolare il valore VIF con l’aiuto del valore R2. L’output sarà:

Dalla formula di cui sopra, possiamo vedere chiaramente che entrambi, il valore R2 e il Variance Inflation Factor, aumenteranno simultaneamente. Quando il valore R2 è più alto, indica che le altre variabili indipendenti stanno spiegando correttamente la variabile obiettivo-indipendente. Ora, per decidere se mantenere o rimuovere la variabile, considereremo il valore soglia del fattore di inflazione della varianza.

Il valore del fattore di inflazione della varianza dovrebbe essere auspicabilmente piccolo. Tuttavia, questo valore può rimuovere le variabili indipendenti dal set di dati. Pertanto, gli esperti di solito prendono la soglia del fattore di inflazione della varianza uguale a cinque. Questo indica che se il valore di qualsiasi variabile indipendente è più di cinque, sarà rimosso. Ma il valore di soglia ideale dipenderà dal problema riscontrato.

Conclusione

L’influenza della Regressione Lineare dipende dalla semplicità di interpretazione del modello. Non sarete in grado di trovare lo scopo del modello se vi sfugge la multicollinearità. Dal contesto di cui sopra, avete capito il significato di multicollinearità e come influenza la Regressione Lineare. Inoltre, ora potete individuare e rimuovere la multicollinearità per qualsiasi problema che incontrerete in futuro.