Ob wir die Entwicklung der Finanzmärkte oder des Stromverbrauchs vorhersagen wollen, die Zeit ist ein entscheidender Faktor, der jetzt in unseren Modellen berücksichtigt werden muss. Es könnte zum Beispiel interessant sein, nicht nur zu wissen, wann eine Aktie im Preis steigen wird, sondern auch, wann sie sich nach oben bewegt.

Statistik eingeben. Eine Statistik ist nur eine Reihe von Wissenspunkten, die zeitlich geordnet sind. Während einer Statistik ist die Zeit typischerweise die Versuchsvariable, und daher besteht das Ziel in der Regel darin, eine Prognose für die längere Frist zu erstellen.

Es gibt jedoch noch andere Aspekte, die bei der Handhabung einer Statistik mitspielen.

Ist sie stationär?

Gibt es Saisonabhängigkeit?

Ist die Zielvariable automatisch korreliert?

In diesem Beitrag werde ich in der Lage sein, verschiedene Charakteristika Ihrer Zeitreihen und die Art und Weise, wie wir sie modellieren werden, vorzustellen, um genaue (so weit wie möglich) Vorhersagen zu erhalten.

Autokorrelation

https://miro.medium.com/max/1034/1*1SnyrVnYQ747DkltaH6nkQ.png

Informell ist Autokorrelation, dass die Ähnlichkeit zwischen Beobachtungen als Funktion der Verzögerung zwischen ihnen.

Oben ist ein Beispiel für eine Autokorrelationskurve dargestellt. Wenn Sie genau hinsehen, stellen Sie fest, dass der Primärwert und damit der 24. Wert eine hohe Autokorrelation aufweist. In ähnlicher Weise sind die 12. und 36. Beobachtungen hoch korreliert. Das deutet darauf hin, dass wir bei jeder 24. Einheit Ihrer Zeit einen wirklich ähnlichen Wert finden werden.

Beachten Sie, wie die Darstellung wie eine Sinusfunktion aussieht. Das ist oft ein Hauch von Saisonabhängigkeit, und Sie finden ihren Wert, indem Sie die Menge innerhalb der obigen Darstellung finden, die 24 Stunden ergeben könnte.

Saisonalität

https://miro.medium.com/max/1686/1*E4vvt9qPqlUDalI0VJXIZQ.png

Saisonalität bezieht sich auf periodische Schwankungen. Zum Beispiel ist der Stromverbrauch tagsüber hoch und nachts niedrig, oder der Online-Verkauf steigt in der Weihnachtszeit, bevor er sich wieder verlangsamt.

Wie Sie oben sehen werden, gibt es eine transparente tägliche Saisonalität. Jeden Tag sehen Sie gegen Abend einen Spitzenwert, und deshalb sind die Tiefstwerte der Beginn und das Ende eines jeden Tages.

Denken Sie daran, dass die Saisonalität auch aus einer Autokorrelationskurve abgeleitet werden kann, wenn es sich um eine Sinuskurve handelt. Schauen Sie sich einfach den Betrag an, und er gibt die Länge der Saison an.

https://miro.medium.com/max/1307/1*tCCq8QoJGYTmrJZiYafLlw.png

Stationarität

Stationär ist ein entscheidendes Merkmal Ihrer Zeitreihe. Eine Statistik wird als stationär bezeichnet, wenn sich ihre statistischen Eigenschaften im Laufe der Zeit nicht ändern. Mit anderen Worten, sie ist ein konstanter Mittelwert und eine konstante Varianz, und die Kovarianz ist unabhängig von Ihrer Zeit.

Wenn wir noch einmal einen äquivalenten Plot betrachten, sehen wir, dass die obige Methode stationär ist. Der Mittelwert und die Varianz ändern sich im Laufe der Zeit nicht.

Häufig sind Aktienkurse kein stationärer Prozess, da wir einen wachsenden Trend sehen würden, oder ihre Volatilität könnte im Laufe der Zeit zunehmen (was bedeutet, dass sich die Varianz ändert).

Im Idealfall würden wir gerne über eine stationäre Statistik für die Modellierung verfügen. Natürlich sind nicht alle von ihnen stationär, aber wir werden verschiedene Transformationen vornehmen, um sie stationär zu gestalten.

https://miro.medium.com/max/861/1*1-836SFvfceTixAK1ERvcA.png

Wie prüft man, ob ein Prozess stationär ist?

Vielleicht ist Ihnen im Titel der Handlung über Dickey-Fuller aufgefallen. Dies ist oft der statistische Test, den wir durchführen, um herauszufinden, ob eine Statistik stationär ist oder nicht.

Ohne auf die technischen Einzelheiten des Dickey-Fuller-Tests einzugehen, testet er die Nullhypothese, dass eine Einheitswurzel vorhanden ist.

Wenn dies der Fall ist, dann ist p > 0, und daher sind die Prozesse nicht stationär.

Andernfalls, wenn p = 0, wird die Nullhypothese verworfen, und daher wird angenommen, dass der Prozess stationär ist.

Als Beispiel ist die folgende Methode nicht stationär. Beachten Sie, dass der Mittelwert über die Zeit nicht konstant ist.

Modellierung der Statistik

Es gibt einige Möglichkeiten, eine Statistik so zu modellieren, dass Vorhersagen gemacht werden können. Hier werde ich sie vorstellen können:

Gleitender Durchschnitt

https://miro.medium.com/max/1300/1*ZlXokSCFkJfWEs9lZDebKw.png

Exponentielle Glättung

ARIMA

Gleitender Durchschnitt

Das Modell des gleitenden Durchschnitts ist vielleicht der naivste Ansatz für die statistische Modellierung. Dieses Modell besagt einfach, dass die spätere Beobachtung der Mittelwert aller bisherigen Beobachtungen ist.

Obwohl es einfach ist, könnte dieses Modell überraschend gut sein, und es stellt eine ehrliche Startlinie dar.

Andernfalls wird der gleitende Durchschnitt oft interessante Trends innerhalb der Daten erkennen. Wir werden ein Fenster definieren, um das Modell des gleitenden Durchschnitts zur Glättung der Statistik zu verwenden und verschiedene Trends hervorzuheben.

In der obigen Abbildung haben wir das Modell des gleitenden Durchschnitts auf ein 24-Stunden-Fenster angewandt. Die Grüne Linie hat die Statistik geglättet, und wir können sehen, dass es 2 Spitzenwerte während eines 24-Stunden-Zeitraums gibt.

https://miro.medium.com/max/1232/1*W4rf6AHqWG0ti6XUMljIEw.png

Je länger das Fenster ist, desto glatter wird der Trend natürlich sein. Unten sehen Sie ein Beispiel für einen gleitenden Durchschnitt auf einem kleineren Fenster.

Exponentielle Glättung

Die exponentielle Glättung verwendet die gleiche Logik wie der gleitende Mittelwert, aber in diesem Punkt wird jeder Beobachtung ein spezielles abnehmendes Gewicht zugeordnet. Mit anderen Worten, den Beobachtungen wird weniger Bedeutung beigemessen, je weiter man darüber hinausgeht.

https://miro.medium.com/max/1308/1*0XOdCfCaZ6Xbrzg_AT8FnA.png

Alpha ist ein Glättungsfaktor, der Werte zwischen 0 und 1 annimmt. Er bestimmt, wie schnell das Gewicht für frühere Beobachtungen abnimmt.

https://miro.medium.com/max/1232/1*1xBpTjWkxYFY_JixAbGuKA.png

Aus dem obigen Diagramm stellt die Marinelinie die exponentielle Glättung der Statistik mit einem Glättungsfaktor von 0,3 dar, während die orangefarbene Linie einen Glättungsfaktor von 0,05 verwendet.

Wie Sie sehen werden, wird die Statistik umso glatter, je kleiner der Glättungsfaktor ist. Dies ist sinnvoll, denn der Glättungsfaktor nähert sich 0; wir nähern uns dem Modell des gleitenden Durchschnitts.

Doppelte exponentielle Glättung

Die doppelte exponentielle Glättung wird angewendet, wenn es einen Trend innerhalb der Statistik gibt. In diesem Fall verwenden wir dieses System, das nur eine rekursive Anwendung der doppelten exponentiellen Glättung ist.

Mathematisch:

https://miro.medium.com/max/1110/1*23R2PWfpY5_3A3S8lSp3-Q.png

Das Beta ist hier der Trendglättungsfaktor und nimmt Werte zwischen 0 und 1 an.

Unten sehen Sie, wie unterschiedliche Werte von Alpha und Beta die Form der Statistik beeinflussen. exponentielle Glättung

https://miro.medium.com/max/1231/1*9w92QHLVshIHvb2zNCv2lw.png

Diese Methode erweitert die doppelte exponentielle Glättung durch Hinzufügen eines saisonalen Glättungsfaktors. Dies ist natürlich oft nützlich, wenn Sie in einigen Zeitreihen Saisonabhängigkeit feststellen.

Exponentielle Kutteln-Glättung

Diese Methode erweitert die doppelte exponentielle Glättung durch Hinzufügen eines saisonalen Glättungsfaktors. Dies ist natürlich nützlich, wenn Sie Saisonalität in Ihren Zeitreihen bemerken.

Mathematisch wird die dreifache exponentielle Glättung ausgedrückt als:

https://miro.medium.com/max/1204/1*Tt19NBbANCBAze3-vajMXg.png

Dabei ist Gamma der saisonale Glättungsfaktor und L die Länge der Saison.

Autoregressiv-integriertes Modell des gleitenden Durchschnitts der Saison (SARIMA)

SARIMA ist in Wirklichkeit eine Mischung aus einfacheren Modellen zu einem schicken Modell, das statistische Daten mit nicht-stationären Eigenschaften und Saisonabhängigkeit modelliert.

Zuerst haben wir das Autoregressionsmodell AR(p). Dies ist oft im Grunde eine Regression der Statistik auf sich selbst. Hier gehen wir davon aus, dass der aktuelle Wert mit einer gewissen Verzögerung von seinen früheren Werten abhängt. Es braucht einen Parameter p, der die größte Verzögerung darstellt. Um ihn aufzuspüren, werfen wir einen Blick auf die partielle Autokorrelationsdarstellung und identifizieren die Verzögerung, nach der die meisten Verzögerungen nicht signifikant sind.

https://miro.medium.com/max/625/1*h0O1f9rQoHNAl37lPtb9zw.png

Im Beispiel unten wäre p gleich 4.

Dann fügen wir das Modell des gleitenden Durchschnitts MA(q) hinzu. Dies nimmt einen Parameter q, der die wichtigste Verzögerung darstellt, nach der andere Verzögerungen auf dem Autokorrelationsdiagramm nicht mehr signifikant sind.

Unten wäre q gleich 4.

https://miro.medium.com/max/622/1*OjMedd6OIe1qFMOfQuuRRg.png

Danach fügen wir die Reihenfolge der Integration I(d) hinzu. Der Parameter d stellt die Menge der Differenzen dar, die erforderlich ist, um die Reihe stationär zu bilden.

Schließlich fügen wir die letzte Komponente hinzu: die Saisonalität S(P, D, Q, s), wobei s nur die Länge der Saison ist. Darüber hinaus erfordert diese Komponente die Parameter P und Q, die ein Äquivalent zu p und q sind, mit Ausnahme der Saisonkomponente. Schließlich ist D die Ordnung der saisonalen Integration, die die Menge der Differenzen darstellt, die erforderlich ist, um die Saisonalität aus der Reihe zu entfernen.

Wenn man alles kombiniert, erhält man das SARIMA(p, d, q)(P, D, Q, s)-Modell.

Die wichtigste Erkenntnis daraus ist oft, dass wir vor der Modellierung mit SARIMA Transformationen auf unsere Statistik anwenden müssen, um die Saisonalität und alle nichtstationären Verhaltensweisen loszuwerden.