Che cos’è la PCA?

Supponiamo di dover prevedere quale sarà la produzione nazionale totale (Prodotto interno lordo) degli Stati Uniti per il 2017. Si hanno a disposizione moltissimi dati: il prodotto interno lordo degli Stati Uniti per il trimestre principale del 2017, il prodotto interno lordo degli Stati Uniti per il totale del 2016, 2015, ecc. Avete un qualsiasi indicatore monetario apertamente accessibile, simile al tasso di disoccupazione, al tasso di espansione, ecc. Avete informazioni sulla registrazione negli Stati Uniti dal 2010 che valutano il numero di americani che lavorano in ogni settore e il gruppo American People Review, che aggiornano le valutazioni a metà di ogni statistica. Sapete quale numero di individui della Camera e del Senato hanno un posto in ogni gruppo ideologico. Potresti accumulare informazioni sul valore delle azioni, sulla quantità di offerte pubbliche iniziali che si verificano in un anno e sul numero di Chiefs che sembrano voler fare un’offerta per un ufficio aperto. Nonostante sia un numero impressionante di fattori da prendere in considerazione, questa fiera inizia a mostrare ciò che c’è sotto.

Potete porre la domanda: “Come prenderei l’insieme dei fattori che ho raccolto e mi concentrerei solo su un paio di essi? In termini specialistici, è necessario “diminuire la componente dello spazio del vostro elemento”. Diminuendo la componente del vostro spazio dell’elemento, avete meno connessioni tra i fattori da considerare e siete più contrari a sovramodellare il vostro modello. (Nota: questo non implica rapidamente che l’overfitting, e così via, non sia mai più una preoccupazione – tuttavia, ci stiamo muovendo nel modo corretto!

In una certa misura, ovviamente, la diminuzione dell’elemento dello spazio dei componenti è classificata come “diminuzione della dimensionalità”. Ci sono numerosi approcci per realizzare la diminuzione della dimensionalità, ma una gran parte di queste procedure può essere classificata come una delle due classi:

Evidenziare lo smaltimento

Evidenziare l’estrazione

Lo smaltimento dei punti salienti è la cosa che sembra: diminuiamo lo spazio dei componenti facendo a meno dei punti salienti. Nel modello del prodotto interno lordo di cui sopra, piuttosto che pensare ad ogni singolo fattore, possiamo eliminare tutti i fattori, ad eccezione dei tre che riteniamo possano meglio prevedere quali saranno le caratteristiche della produzione nazionale totale degli Stati Uniti. I punti di interesse delle tecniche di punta incorporano la facilità d’uso e il mantenimento dell’interpretabilità dei fattori.

Come disservizio, tuttavia, non si ottengono dati da quelle variabili che sono cadute. Nel caso in cui utilizziamo solo il prodotto interno lordo di un anno fa, l’entità della popolazione nell’assemblare le occupazioni secondo i numeri dell’ultimo studio del gruppo American People, e il tasso di disoccupazione per prevedere il prodotto interno lordo dell’anno in corso, stiamo rinunciando a qualsiasi fattore che i fattori di calo potrebbero aggiungere al nostro modello. Facendo a meno dei punti salienti, abbiamo inoltre eliminato completamente tutti i vantaggi che questi fattori di calo avrebbero portato.

Evidenziare l’estrazione, sia come sia, non si scontra con questo problema. Supponiamo di avere dieci fattori autonomi. Nell’estrazione includiamo dieci “nuovi” fattori autonomi, dove ogni “nuovo” fattore libero è una miscela di ognuno dei dieci “vecchi” fattori autonomi. In ogni caso, facciamo queste nuove variabili libere con un certo obiettivo in mente e richiediamo questi nuovi fattori in base a quanto bene prevedono la nostra variabile dipendente.

Si può affermare: “Dove si riduce la dimensionalità diventa un fattore integrante? Beh, manteniamo lo stesso numero di nuove variabili libere di cui abbiamo bisogno, ma lasciamo cadere le “meno significative”. Poiché abbiamo richiesto le nuove variabili in base alla loro capacità di prevedere la nostra variabile bisognosa, ci rendiamo conto di quale sia la più significativa e la meno significativa. Sia come sia, – e qui sta il bello – sulla base del fatto che questi nuovi fattori liberi sono un mix dei nostri vecchi fattori, indipendentemente dal fatto che stiamo mantenendo i pezzi più significativi dei nostri vecchi fattori, in ogni caso, quando lasciamo cadere almeno una di queste “nuove” variabili!

L’indagine del segmento di testa è un metodo per includere l’estrazione – quindi consolida i nostri fattori di informazione con un certo obiettivo in mente, a quel punto possiamo abbandonare i fattori “meno significativi”, pur mantenendo ancora i pezzi più importanti dell’insieme dei fattori! Come ulteriore vantaggio, ognuno dei “nuovi” fattori dopo la PCA è nel complesso libero da ogni altro. Questo è un vantaggio alla luce del fatto che le presunzioni di un modello lineare richiedono che i nostri fattori autonomi siano liberi l’uno dall’altro. Nella remota possibilità che scegliamo di inserire un modello di ricaduta lineare con queste “nuove” variabili (vedi sotto “ricaduta della parte di testa”), questa presunzione sarà essenzialmente soddisfatta.

Quando sarebbe consigliabile per me utilizzare la PCA?

Volete diminuire il numero dei fattori, tuttavia, non siete pronti a riconoscere i fattori per espellere totalmente dal pensiero?

Volete garantire che i vostri fattori siano liberi l’uno dall’altro?

È vero che siete aperti a rendere i vostri fattori liberi meno interpretabili?

Nel caso in cui lei abbia risposto “sì” ad ognuna delle tre richieste, a quel punto, la PCA è una strategia decente da utilizzare. Nel caso in cui si sia rivolto “no” alla 3, non si dovrebbe utilizzare la PCA.

Come funziona la PCA?

Il segmento successivo esamina il motivo per cui la PCA funziona, ma potrebbe essere utile per l’impostazione una breve sinossi prima di saltare nel calcolo:

Troveremo un quadro di riferimento che delinea il modo in cui i nostri fattori si identificano l’uno con l’altro.

A quel punto separeremo questo reticolo in due segmenti distinti: la prua e la grandezza. Saremo così in grado di comprendere le “intestazioni” delle nostre informazioni e la loro “portata” (o quanto “significativo” sia ogni corso). La schermata sottostante, dall’applet setosa.io, mostra i due principali punti di riferimento di queste informazioni: la “rotta rossa” e la “rotta verde”. Per questa situazione, la “rotta rossa” è la più significativa. Ci spiegheremo più avanti perché questa è la situazione, tuttavia, visto come sono organizzati i punti, sareste in grado di percepire qualche ragione per cui la “rotta rossa” sembra più significativa del “cuscinetto verde”? (Indicazione: A cosa potrebbe assomigliare una linea che si adatta meglio a questa informazione?

Cambieremo le nostre informazioni uniche per allinearci a queste voci significative (che sono miscele dei nostri fattori unici). La schermata sottostante (sempre da setosa.io) è un’informazione precisa e indistinguibile dall’alto, ma cambiata con l’obiettivo che le x- e y-tomahawks siano attualmente la “rotta rossa” e la “rotta verde”. Come potrebbe essere la linea di massima aderenza in questo caso?

Mentre il modello visivo qui è bidimensionale (e lungo queste linee abbiamo due “intestazioni”), si consideri una situazione in cui le nostre informazioni hanno più misure. Distinguendo quali “cuscinetti” sono generalmente “significativi”, possiamo impacchettare o estendere le nostre informazioni in un piccolo spazio lasciando cadere le “intestazioni” che sono le “meno significative”. Anticipando le nostre informazioni in un piccolo spazio, stiamo diminuendo la dimensionalità dello spazio dei nostri componenti… ma poiché abbiamo cambiato le nostre informazioni in questi “modi diversi”, abbiamo fatto un punto per mantenere ogni variabile unica nel nostro modello!