Che si voglia prevedere l’andamento dei mercati finanziari o il consumo di energia elettrica, il tempo è un fattore cruciale che deve essere considerato nei nostri modelli. Ad esempio, potrebbe essere interessante non solo sapere quando un titolo salirà di prezzo, ma anche quando salirà.

Inserisci la statistica. Una statistica è solo una serie di punti di conoscenza ordinati nel tempo. Durante una statistica, il tempo è tipicamente la variabile sperimentale e quindi l’obiettivo è di solito quello di formare una previsione a lungo termine.

Tuttavia, ci sono altri aspetti che ereditano il gioco quando si gestisce una statistica.

È stazionario?

C’è stagionalità?

La variabile target è auto correlata?

In questo post, sarò in grado di introdurre diverse caratteristiche delle vostre serie temporali e il modo in cui le modelleremo per ottenere previsioni accurate (il più possibile simili).

Autocorrelazione

https://miro.medium.com/max/1034/1*1SnyrVnYQ747DkltaH6nkQ.png

Informalmente, l’autocorrelazione è che la somiglianza tra le osservazioni in funzione del ritardo tra di loro.

Qui sopra è un esempio di un grafico di autocorrelazione. Guardando da vicino, ci si rende conto che il valore primario e quindi il 24° valore hanno un’autocorrelazione elevata. Allo stesso modo, la 12a e la 36a osservazione sono altamente correlate. Questo suggerisce che troveremo un valore davvero simile ogni 24 unità del vostro tempo.

Notate come la trama sembra una funzione sinusoidale. Questo è spesso un tocco di stagionalità, e troverete il suo valore trovando la quantità all’interno della trama di cui sopra, che potrebbe dare 24h.

Stagionalità

https://miro.medium.com/max/1686/1*E4vvt9qPqlUDalI0VJXIZQ.png

La stagionalità si riferisce alle fluttuazioni periodiche. Ad esempio, il consumo di elettricità è elevato durante il giorno e basso durante la notte, oppure le vendite online aumentano durante il periodo natalizio prima di rallentare nuovamente.

Come vedrete sopra, c’è una trasparente stagionalità giornaliera. Ogni giorno si vede un picco verso sera, e quindi i punti più bassi sono l’inizio e la fine di ogni giornata.

Ricordate che la stagionalità può anche derivare da una trama di autocorrelazione se si tratta di una forma sinusoidale. Basta controllare la quantità e fornisce la lunghezza della stagione.

https://miro.medium.com/max/1307/1*tCCq8QoJGYTmrJZiYafLlw.png

Stazionarietà

La stazionarietà è una caratteristica cruciale delle vostre serie temporali. Una statistica è considerata stazionaria se le sue proprietà statistiche non cambiano nel tempo. In altre parole, è una media e una varianza costante, e la covarianza è indipendente dal vostro tempo.

Guardando di nuovo un grafico equivalente, vediamo che il metodo di cui sopra è stazionario. La media e la varianza non variano nel tempo.

Spesso i prezzi delle azioni non sono un processo stazionario, poiché vedremmo un trend in crescita, o la sua volatilità potrebbe aumentare nel tempo (il che significa che la varianza sta cambiando).

Idealmente, vorremmo avere una statistica stazionaria per la modellazione. Naturalmente, non tutti sono stazionari, ma faremo diverse trasformazioni per formarli stazionari.

https://miro.medium.com/max/861/1*1-836SFvfceTixAK1ERvcA.png

Come verificare se un processo è fermo

Potreste aver notato all’interno del titolo della trama sopra Dickey-Fuller. Questo è spesso il test statistico che eseguiamo per capire se una statistica è ferma o meno.

Senza entrare nei dettagli tecnici del test Dickey-Fuller, esso verifica l’ipotesi nulla che sia presente una radice unitaria.

Se lo è, allora p > 0, e quindi il processo non è fermo.

Altrimenti, p = 0, l’ipotesi nulla viene respinta, e quindi il processo viene preso in considerazione per essere stazionario.

Come esempio, il metodo sottostante non è stazionario. Si noti come la media non sia costante nel tempo.

Statistica di modellazione

Ci sono alcuni modi per modellare una statistica in modo da formare previsioni. Qui, sarò in grado di presentare:

Media mobile

https://miro.medium.com/max/1300/1*ZlXokSCFkJfWEs9lZDebKw.png

Lisciatura esponenziale

ARIMA

Media mobile

Il modello della media mobile è forse il principale approccio ingenuo alla modellazione statistica. Questo modello afferma semplicemente che l’osservazione successiva è la media di tutte le osservazioni passate.

Anche se semplice, questo modello potrebbe essere sorprendentemente buono e rappresenta una linea di partenza onesta.

Altrimenti, la media mobile è spesso in grado di identificare tendenze interessanti all’interno dei dati. Definiremo una finestra per utilizzare il modello della media mobile per smussare la statistica ed evidenziare le diverse tendenze.

Nel grafico qui sopra, abbiamo applicato il modello della media mobile a una finestra di 24 ore. La linea verde ha smussato la statistica, e che possiamo vedere che ci sono 2 picchi durante un periodo di 24 ore.https://miro.medium.com/max/1232/1*W4rf6AHqWG0ti6XUMljIEw.png

Naturalmente, più lunga è la finestra, più morbida sarà la tendenza. Di seguito è riportato un esempio di media mobile su una finestra più piccola.

Lisciatura esponenziale

Lo smussamento esponenziale utilizza una logica identica alla media mobile, ma a questo punto, ad ogni osservazione viene assegnato un peso speciale decrescente. In altre parole, si dà meno importanza alle osservazioni quando si va oltre.

https://miro.medium.com/max/1308/1*0XOdCfCaZ6Xbrzg_AT8FnA.png

alpha è un fattore di lisciatura che prende valori compresi tra 0 e 1. Determina la velocità con cui il peso diminuisce per le osservazioni precedenti.

https://miro.medium.com/max/1232/1*1xBpTjWkxYFY_JixAbGuKA.png

Dal grafico sopra riportato, la linea marina rappresenta lo smussamento esponenziale della statistica utilizzando un fattore di smussatura di 0,3, mentre la linea arancione utilizza un fattore di smussatura di 0,05.

Come vedrete, più piccolo è il fattore di lisciatura, più la statistica sarà liscia. Questo è ragionevole, perché il fattore di lisciatura si avvicina a 0; ci avviciniamo al modello della media mobile.

Doppio smussamento esponenziale

Lo smussamento esponenziale doppio viene utilizzato quando c’è una tendenza all’interno della statistica. in questo caso, usiamo questo sistema, che è solo un uso ricorsivo dello smussamento esponenziale due volte.

Matematicamente:

https://miro.medium.com/max/1110/1*23R2PWfpY5_3A3S8lSp3-Q.png

Qui, beta è che il fattore di lisciatura della tendenza e prende valori compresi tra 0 e 1.

Qui sotto, vedrete come i diversi valori di alfa e beta influenzano la forma della statistica .Tripe esponenziale smoothing

https://miro.medium.com/max/1231/1*9w92QHLVshIHvb2zNCv2lw.png

Questo metodo estende la doppia lisciatura esponenziale, aggiungendo un fattore di lisciatura stagionale. Naturalmente, questo è spesso utile se si nota la stagionalità in alcune serie temporali.

Lisciatura esponenziale della trippa

Questo metodo estende la doppia lisciatura esponenziale, aggiungendo un fattore di lisciatura stagionale. Naturalmente, questo è utile se si nota la stagionalità nelle serie temporali.

Matematicamente, lo smussamento triplice esponenziale è espresso come:

https://miro.medium.com/max/1204/1*Tt19NBbANCBAze3-vajMXg.png

Dove gamma è che il fattore lisciante stagionale e L è che la lunghezza della stagione.

Modello di media mobile integrativa autoregressiva stagionale (SARIMA)

SARIMA è in realtà la miscela di modelli più semplici per formare un modello elegante che modellerà statistiche con proprietà non stazionarie e stagionalità.

All’inizio, abbiamo il modello di regressione automatica AR(p). Questo è spesso fondamentalmente una regressione della statistica su se stessa. Qui si assume che il valore attuale dipenda dai suoi valori precedenti con un certo ritardo. Si prende un parametro p che rappresenta il massimo ritardo. Per cercarlo, diamo un’occhiata al grafico di autocorrelazione parziale e identifichiamo il ritardo dopo il quale la maggior parte dei ritardi non sono significativi.

https://miro.medium.com/max/625/1*h0O1f9rQoHNAl37lPtb9zw.png

Nell’esempio seguente, p sarebbe 4.

Poi, aggiungiamo il modello di media mobile MA(q). Questo prende un parametro q che rappresenta il ritardo più importante dopo il quale gli altri ritardi non sono significativi sul grafico di autocorrelazione.

Sotto, q sarebbe 4.

https://miro.medium.com/max/622/1*OjMedd6OIe1qFMOfQuuRRg.png

Dopo, aggiungiamo l’ordine di integrazione I(d). Il parametro d rappresenta la quantità di differenze necessarie per formare la serie stazionaria.

Infine, aggiungiamo il componente finale: la stagionalità S(P, D, Q, s), dove s è solo la lunghezza della stagione. Inoltre, questo componente richiede i parametri P e Q che sono equivalenti a p e q, ad eccezione della componente stagionale. Infine, D è l’ordine di integrazione stagionale che rappresenta la quantità di differenze necessarie per eliminare la stagionalità dalla serie.

Combinando tutti, si ottiene il modello SARIMA(p, d, q)(P, D, Q, s).

La principale conseguenza di questo è che spesso, prima di modellare con SARIMA, dobbiamo applicare le trasformazioni alla nostra statistica per eliminare la stagionalità e i comportamenti non stazionari.