Niezależnie od tego, czy chcemy przewidzieć trend na rynkach finansowych, czy też zużycie energii elektrycznej, czas jest kluczowym czynnikiem, który należy teraz uwzględnić w naszych modelach. Na przykład, interesująca może być nie tylko wiedza o tym, kiedy cena akcji będzie rosła, ale także kiedy będzie ona rosła.

Wprowadź statystyki. Statystyka jest tylko serią punktów wiedzy uporządkowanych w czasie. W statystyce czas jest zazwyczaj zmienną eksperymentalną i dlatego celem jest zazwyczaj stworzenie prognozy na dłuższy okres czasu.

Istnieją jednak inne aspekty, które dziedziczą grę podczas obsługi statystyki.

Czy jest ona stacjonarna?

Czy istnieje sezonowość?

Czy zmienna docelowa jest automatycznie skorelowana?

W tym poście będę w stanie wprowadzić różne charakterystyki Twoich szeregów czasowych i sposób, w jaki będziemy je modelować, aby uzyskać dokładne (jak najbardziej jak to możliwe) prognozy.

Autokorelacja

https://miro.medium.com/max/1034/1*1SnyrVnYQ747DkltaH6nkQ.png

Nieformalnie, autokorelacja polega na tym, że podobieństwo między obserwacjami jest funkcją opóźnienia między nimi.

Powyżej znajduje się przykład wykresu autokorelacji. Przyglądając się uważnie, zdajesz sobie sprawę, że wartość podstawowa, a więc 24. wartość, ma wysoką autokorelację. Podobnie, obserwacje 12. i 36. są silnie skorelowane. Sugeruje to, że znajdziemy naprawdę podobną wartość w każdej 24-tej jednostce czasu.

Zauważ, że działka wygląda jak funkcja sinusoidalna. Jest to często dotknięcie sezonowości, a jego wartość można znaleźć, znajdując kwotę w działce powyżej, co może dać 24h.

Sezonowość

https://miro.medium.com/max/1686/1*E4vvt9qPqlUDalI0VJXIZQ.png

Sezonowość odnosi się do okresowych wahań. Na przykład, zużycie energii elektrycznej jest wysokie w ciągu dnia i niskie w nocy, lub sprzedaż online wzrasta w okresie świąt Bożego Narodzenia, a następnie ponownie spada.

Jak widać powyżej, mamy do czynienia z przejrzystą, dzienną sezonowością. Każdego dnia widzimy szczyt pod wieczór, dlatego też najniższymi punktami są początek i koniec każdego dnia.

Pamiętaj, że sezonowość można również wyprowadzić z wykresu autokorelacji, jeśli ma on kształt sinusoidy. Wystarczy sprawdzić ilość i daje długość sezonu.

https://miro.medium.com/max/1307/1*tCCq8QoJGYTmrJZiYafLlw.png

Stacjonarność

Stacjonarne to kluczowa cecha Twoich szeregów czasowych. Statystykę uważa się za stacjonarną, jeśli jej właściwości statystyczne nie zmieniają się w czasie. Innymi słowy, jest to stała średnia i wariancja, a kowariancja jest niezależna od twojego czasu.

Patrząc ponownie na równoważną wykres, widzimy, że powyższa metoda jest stacjonarna. Średnia i wariancja nie zmieniają się w czasie.

Często ceny akcji nie są procesem stacjonarnym, ponieważ widzimy tendencję wzrostową, albo ich zmienność może rosnąć w czasie (co oznacza, że zmienność się zmienia).

Najlepiej byłoby, gdybyśmy posiadali statykę stacjonarną do modelowania. Oczywiście, nie wszystkie z nich są stacjonarne, ale dokonamy różnych transformacji, aby je uformować stacjonarne.

https://miro.medium.com/max/861/1*1-836SFvfceTixAK1ERvcA.png

Jak sprawdzić, czy proces jest nieruchomy

Być może zauważyłeś w tytule działki nad Dickey-Fullerem. Często jest to test statystyczny, który przeprowadzamy w celu ustalenia, czy dana statystyka jest nieruchoma, czy nie.

Nie zagłębiając się w szczegóły techniczne testu Dickey-Fullera, test ten sprawdza hipotezę zerową, że korzeń jednostki jest obecny.

Jeśli jest, to p > 0, a więc proces nie jest stacjonarny.

W przeciwnym razie, p = 0, hipoteza zerowa jest odrzucana, a zatem proces jest brany pod uwagę jako stacjonarny.

Jako przykład, poniższa metoda nie jest stacjonarna. Zauważ, że średnia nie jest stała w czasie.

Statystyka modelowania

Istnieją pewne sposoby modelowania statystyki w celu tworzenia prognoz. Tutaj, będę mógł przedstawić:

Średnią kroczącą

https://miro.medium.com/max/1300/1*ZlXokSCFkJfWEs9lZDebKw.png

Wygładzanie wykładnicze

ARIMA

Średnia krocząca

Model średniej ruchomej jest być może najbardziej naiwnym podejściem do modelowania statystycznego. W modelu tym stwierdza się po prostu, że późniejsza obserwacja jest średnią wszystkich obserwacji z przeszłości.

Choć prosty, model ten moĪe byü zaskakująco dobry i stanowi uczciwą linię startu.

W przeciwnym razie średnia krocząca często nie pozwala na zidentyfikowanie interesujących trendów w danych. Zdefiniujemy okno do wykorzystania modelu średniej ruchomej w celu wygładzenia statystyki i podkreślenia różnych trendów.

Na powyższym wykresie zastosowaliśmy model średniej kroczącej do okna 24-godzinnego. Zielona linia wygładziła statystykę i widzimy, że w okresie 24h występują 2 szczyty.

https://miro.medium.com/max/1232/1*W4rf6AHqWG0ti6XUMljIEw.png

Oczywiście, im dłuższe jest okno, tym bardziej płynny będzie trend. Poniżej znajduje się przykład przesuwania średniej na mniejszym oknie.

Wygładzanie wykładnicze

Wygładzanie wykładnicze wykorzystuje identyczną logikę jak średnia krocząca, ale w tym punkcie każdej obserwacji przypisuje się specjalną malejącą wagę. Innymi słowy, w miarę wychodzenia poza ten punkt, obserwacjom przypisuje się mniejszą wagę.

https://miro.medium.com/max/1308/1*0XOdCfCaZ6Xbrzg_AT8FnA.png

alfa jest czynnikiem wygładzającym, który przyjmuje wartości pomiędzy 0 a 1. Określa on, jak szybko zmniejsza się waga dla poprzednich obserwacji.

https://miro.medium.com/max/1232/1*1xBpTjWkxYFY_JixAbGuKA.png

Na powyższym wykresie linia marynarki wojennej przedstawia wygładzanie wykładnicze statystyki z zastosowaniem współczynnika wygładzania 0,3, natomiast linia pomarańczowa z zastosowaniem współczynnika wygładzania 0,05.

Jak widać, im mniejszy współczynnik wygładzania, tym statystyka będzie gładsza. Jest to rozsądne, ponieważ współczynnik wygładzania zbliża się do 0; zbliżamy się do modelu średniej kroczącej.

Podwójne wygładzanie wykładnicze

Podwójne wygładzanie wykładnicze jest stosowane, gdy istnieje trend w statystyce. w tym przypadku używamy tego systemu, który jest tylko rekurencyjnym wykorzystaniem wygładzania wykładniczego dwa razy.

Matematycznie:

https://miro.medium.com/max/1110/1*23R2PWfpY5_3A3S8lSp3-Q.png

Tutaj, beta jest to, że współczynnik wygładzania trendu i przyjmuje wartości pomiędzy 0 a 1.

Poniżej, zobaczysz jak różne wartości alfa i beta wpływają na kształt statystyki .Tripe wykładnicze wygładzanie

https://miro.medium.com/max/1231/1*9w92QHLVshIHvb2zNCv2lw.png

Metoda ta rozszerza podwójne wygładzanie wykładnicze, dodając sezonowy czynnik wygładzający. Oczywiście, jest to często przydatne, jeśli zauważysz sezonowość w pewnych szeregach czasowych.

Wygładzanie trójwymiarowe (Tripe exponential smoothing)

Metoda ta rozszerza podwójne wygładzanie wykładnicze, dodając sezonowy czynnik wygładzający. Oczywiście, jest to przydatne, jeśli zauważysz sezonowość w swoich szeregach czasowych.

Z matematycznego punktu widzenia wygładzanie potrójne wykładnicze jest wyrażone jako:

https://miro.medium.com/max/1204/1*Tt19NBbANCBAze3-vajMXg.png

Gdzie gamma jest, że sezonowy czynnik wygładzający i L jest, że długość sezonu.

Sezonowy autoregresywny zintegrowany model średniej kroczącej (SARIMA)

SARIMA jest tak naprawdę mieszaniną prostszych modeli, aby stworzyć elegancki model, który będzie modelował statystyki wykazujące niestacjonarne właściwości i sezonowość.

Na początku, mamy model auto regresji AR(p). Często jest to w zasadzie regresja statystyki na samą siebie. Tutaj zakładamy, że aktualna wartość zależy od jej poprzednich wartości z pewnym opóźnieniem. Przyjmuje ona parametr p, który reprezentuje największe opóźnienie. Aby go znaleźć, rzucamy okiem na wykres częściowej autokorelacji i identyfikujemy opóźnienie, po którym większość opóźnień nie jest znacząca.

https://miro.medium.com/max/625/1*h0O1f9rQoHNAl37lPtb9zw.png

W poniższym przykładzie, p będzie 4.

Następnie dodajemy średnią kroczącą modelu MA(q). Przyjmuje się parametr q, który reprezentuje najważniejsze opóźnienie, po którym inne opóźnienia nie są istotne na wykresie autokorelacji.

Poniżej, q wynosiłoby 4.

https://miro.medium.com/max/622/1*OjMedd6OIe1qFMOfQuuRRg.png

Następnie dodajemy kolejność integracji I(d). Parametr d reprezentuje ilość różnic wymaganych do utworzenia szeregu stacjonarnego.

Na koniec dodajemy składową ostateczną: sezonowość S(P, D, Q, s), gdzie s jest tylko długością sezonu. Ponadto, składnik ten wymaga parametrów P i Q, które są równoważne jako p i q, z wyjątkiem składnika sezonowego. Wreszcie D oznacza, że kolejność integracji sezonowej odpowiada ilości różnic wymaganych do pozbycia się sezonowości z serii.

Łącząc wszystkie, otrzymujemy model SARIMA(p, d, q)(P, D, Q, s).

Główny wniosek z tego jest często taki, że przed przystąpieniem do modelowania z SARIMĄ musimy zastosować przekształcenia w naszej statystyce, aby pozbyć się sezonowości i wszelkich zachowań niestacjonarnych.