ARIMA(p,d,q) równanie prognozujące: Modele ARIMA są teoretycznie najbardziej ogólną klasą modeli służących do prognozowania statystyki, która może być “stacjonarna” poprzez różnicowanie (jeśli to konieczne), być może w połączeniu z przekształceniami nieliniowymi, takimi jak wyrąb lub deflacja (jeśli to konieczne). Wariant, który jest statystyką, jest stacjonarny, jeśli jego właściwości statystyczne są stałe w czasie. Szereg stacjonarny nie ma trendu, jego wahania wokół średniej mają stałą amplitudę i w sposób konsekwentny drga, tzn. jego krótkoterminowe losowe wzorce czasowe zawsze wyglądają równoważnie w sensie statystycznym. Ten ostatni warunek oznacza, że jego autokorelacje (korelacje z jego własnymi wcześniejszymi odchyleniami od średniej) pozostają stałe w czasie, lub równoważnie, że jego widmo mocy pozostaje stałe w czasie. Wariant tego typu są często postrzegane (jak zwykle) jako mieszanina sygnału i szumu, a zatem sygnał (jeśli jest widoczny) może być wzór szybkiego lub powolnego średniego odwrócenia, lub sinusoidalne oscylacje, lub szybkie zmiany w znaku, a nawet może mieć składnik sezonowy. Model ARIMA jest często postrzegany jako “filtr”, który próbuje oddzielić sygnał od szumu, a zatem sygnał ten jest następnie ekstrapolowany na dłuższy okres w celu uzyskania prognoz.

Równanie prognostyczne ARIMA dla statystyki stacjonarnej może być równaniem liniowym (tzn. typu regresji), podczas którego prognostyk zawiera opóźnienia zmiennej i/lub opóźnienia błędów prognozy. To znaczy:

Wartość prognozowana Y = ciągła i/lub ważona suma 1 lub nowszych wartości Y i/lub ważona suma 1 lub nowszych wartości błędów.

Jeżeli prognozy składają się tylko z opóźnionych wartości Y, to jest to model czysto autoregresywny (“autoregresywny”), który jest po prostu specjalnym przypadkiem modelu regresji i który może być wyposażony w standardowe oprogramowanie regresji. na przykład, model autoregresywny pierwszego rzędu (“AR(1)”) dla Y może być modelem regresji, podczas którego zmienna doświadczalna jest po prostu Y opóźniona o jeden okres (LAG(Y,1) w Statgraphics lub Y_LAG1 w RegressIt). Jeśli pewna liczba predykatorów jest opóźniona w stosunku do błędów, model ARIMA NIE jest modelem regresji prostoliniowej, ponieważ nie ma żadnego podziękowania za określenie “błędu ostatniego okresu” jako niezależnej zmiennej: błędy muszą być obliczane na zasadzie okres do okresu, gdy model jest dopasowany do informacji . Z technicznego punktu widzenia sprawa z wykorzystaniem błędów opóźnionych jako predykatorów jest taka, że przewidywania modelu nie są liniowymi funkcjami współczynników, aczkolwiek są to liniowe funkcje danych z przeszłości. Tak więc, współczynniki w modelach ARIMA, które zawierają błędy opóźnione, muszą być oszacowane za pomocą nieliniowych metod optymalizacji (“wspinaczka”), a nie tylko poprzez rozwiązanie układu równań.

Akronim ARIMA oznacza Auto-Regresywną Zintegrowaną Średnią Ruchu. Opóźnienia serii stacjonarnych w ramach równania prognostycznego nazywane są terminami “autoregresywnymi”, opóźnienia błędów prognozy nazywane są terminami “średnia krocząca”, a statystyka, która musi się różnić, aby stała się wersją “zintegrowaną” serii stacjonarnej. Szczególnymi przypadkami modeli ARIMA są modele random-walk i random-trend, modele autoregresywne oraz modele wygładzania wykładniczego.

Nieseasonalny model ARIMA jest oceniany jako model “ARIMA(p,d,q)”, gdzie:

p to liczba terminów autoregresywnych,

d jest, że liczba niesezonowych różnic potrzebnych do stacjonarności, oraz

q jest to liczba opóźnionych błędów prognozy w równaniu prognozowania.

Równanie prognozowania jest wykonane w następujący sposób. Po pierwsze, niech y oznacza dth różnicę Y, co oznacza:

Jeżeli d=0: yt = Yt

Jeśli d=1: yt = Yt – Yt-1

Jeśli d=2: yt = (Yt – Yt-1) – (Yt-1 – Yt-2) = Yt – 2Yt-1 + Yt-2

Zwróć uwagę, że druga różnica Y (przypadek d=2) nie jest różnicą z 2 okresów temu. Jest to raczej pierwsza różnica pierwszej różnicy, czyli dyskretne analogi drugiej pochodnej, tj. lokalne przyspieszenie serii zamiast jej lokalnego trendu.

W odniesieniu do y, ogólne równanie prognostyczne jest:

ŷt = μ + ϕ1 yt-1 +…+ ϕp yt-p – θ1et-1 -…- θqet-q

Tutaj parametry średniej kroczącej (θ’s) są zdefiniowane tak, aby ich znaki były ujemne w obrębie równania, zgodnie z konwencją wprowadzoną przez Boxa i Jenkinsa. Niektórzy autorzy i oprogramowanie (w tym język programowania R) definiują je w taki sposób, że zamiast tego potrzebują znaków plus. Gdy do równania podłączone są rzeczywiste liczby, nie ma żadnej dwuznaczności, ale ważne jest, aby zrozumieć, jakiej konwencji używa oprogramowanie po przeczytaniu wyjścia. Często parametry są tam oznaczane przez AR(1), AR(2), …, oraz MA(1), MA(2), … itd.

Aby zidentyfikować akceptowalny model ARIMA dla Y, zaczynasz od określenia kolejności różnicowania (d) chcąc Stationarize serii i zabrać cechy brutto sezonowości, być może w połączeniu z transformacją stabilizującą wariancję, jak logowanie lub deflatowanie. Jeśli zatrzymasz się teraz i przewidujesz, że zróżnicowane serie są stałe, wystarczy, że dopasujesz proces stochastyczny lub model trendu losowego. Stacjonarne szeregi powinny jednak zawierać błędy związane z autokorektą, co sugeruje, że pewna liczba terminów AR (p ≥ 1) i/lub pewna liczba terminów MA (q ≥ 1) jest również potrzebna w ramach równania prognostycznego.

Proces okreĞlania wartoĞci p, d i q, które są najlepsze dla danej statystyki, bĊdzie omówiony w póĨniejszych punktach uwag (których linki znajdują siĊ na najwyĪszej stronie), ale poniĪej przedstawiono podglą d szeregu rodzajów powszechnie spotykanych niesezonowych modeli ARIMA.

ARIMA(1,0,0) = model autoregresywny pierwszego rzędu: jeśli szereg jest stacjonarny i związany z autokorektorem, to być może jest on często przewidywany jako wielokrotność jego własnej poprzedniej wartości, plus ciąg dalszy . Równanie prognostyczne w tym przypadku jest następujące

Ŷt = μ + ϕ1Yt-1

…który jest Y cofnięty na siebie o jeden okres. często jest to model “ARIMA(1,0,0)+stały”. Jeśli średnia Y jest równa zeru, to termin stały nie zostałby uwzględniony.

Jeśli współczynnik nachylenia ϕ1 jest dodatni i mniejszy niż 1 w wielkości (musi być tylko 1 w wielkości, jeśli Y jest stacjonarny), to model opisuje średnio-odwracające zachowanie, podczas którego należy przewidzieć, że wartość następnego okresu będzie ϕ1 razy bardziej oddalona od średniej niż wartość tego okresu. Jeśli ϕ1 jest ujemna, to przewiduje średnie – odwracając zachowanie z przemianą znaków, tj. również przewiduje, że Y będą poniżej średniej następnego okresu, jeśli jest powyżej średniej tej epoki .

W modelu autoregresywnym drugiego rzędu (ARIMA(2,0,0)), na właściwym również byłby termin Yt-2 , i tak dalej. licząc na znaki i wielkości współczynników, model ARIMA(2,0,0) mógłby opisać układ, którego średnie odwracanie odbywa się podczas sinusoidalnej oscylacji, podobnie jak ruch masy na sprężynie, która jest poddawana przypadkowym szokom.

ARIMA(0,1,0) = losowy chód: Jeśli seria Y nie jest nieruchoma, to jedynym możliwym modelem dla niej jest model procesu stochastycznego, który można uznać za przypadek graniczny modelu AR(1), podczas którego współczynnik autoregresji jest odpowiedni do 1, tj. serii o nieskończenie powolnej średniej rewersji. Równanie predykcyjne dla tego modelu jest często zapisywane jako:

Ŷt – Yt-1 = μ

lub równoważnie

Ŷt = μ + Yt-1

…gdzie stałym terminem jest to, że średni okres do okresu zmienia się (tj. długoterminowy dryf) w Y. Model ten może być zainstalowany jako model regresji bez przechwytywania, podczas której podstawowa różnica Y jest taka, że zmienna . Ponieważ obejmuje ona (tylko) różnicę niesezonową i termin ciągły, jest ona klasyfikowana jako “model ARIMA(0,1,0) ze stałą”. Model random-walk-without-drift byłby modelem ARIMA(0,1,0) bez zmiennej stałej.

ARIMA(1,1,0) = zróżnicowany model autoregresywny pierwszego rzędu: Jeżeli błędy modelu procesu stochastycznego są związane z autokorygowaniem, to być może sprawa jest często naprawiana przez dodanie jednego opóźnienia zmiennej do równania przewidywania – tzn. przez cofnięcie pierwotnej różnicy Y na sobie opóźnionej o jeden okres. jest to w stanie dać kolejne równanie przewidywania:

Ŷt – Yt-1 = μ + ϕ1(Yt-1 – Yt-2)

Ŷt – Yt-1 = μ

które można przeorganizować do

Ŷt = μ + Yt-1 + ϕ1 (Yt-1 – Yt-2)

Jest to model autoregresywny pierwszego rzędu z jednym porządkiem niesezonowych różnic i ciągłym terminem – tj. model ARIMA(1,1,0).

ARIMA(0,1,1) bez stałej = proste wygładzanie wykładnicze: Inna strategia korygowania błędów autokoregresywnych podczas modelu procesu stochastycznego jest zwykle zalecana przez prosty model wygładzania wykładniczego. Przypomnijmy, że w przypadku kilku statystyk niestacjonarnych (np. takich, które wykazują hałaśliwe wahania wokół powoli zmieniającej się średniej), model procesu stochastycznego nie działa również jako średnia krocząca wartości z przeszłości. Innymi słowy, zamiast brać pod uwagę przede wszystkim ostatnie obserwacje, ponieważ prognoza kolejnych obserwacji, lepiej jest użyć średniej z poprzednich kilku obserwacji, aby przefiltrować szum i dokładniej oszacować lokalną średnią. prostoliniowy model wygładzania wykładniczego wykorzystuje wykładniczo ważoną średnią ruchomą wartości z przeszłości, aby zrealizować ten efekt. Równanie predykcyjne dla modelu wygładzania prostoliniowego jest często zapisywane w kilku matematycznie równoważnych formach, wśród których jedną z nich jest tzw. forma “korekty błędu”, podczas której poprzednia prognoza jest korygowana w kierunku popełnionego błędu:

Ŷt = Ŷt-1 + αet-1

Ponieważ et-1 = Yt-1 – Ŷt-1 z definicji zostanie przepisany jako:

Ŷt = Yt-1 – (1-α)et-1

= Yt-1 – θ1et-1

Jest to ARIMA(0,1,1)- bez stałego równania prognostycznego z θ1 = 1-α. Sugeruje to, że można po prostu dopasować łatwe wygładzanie wykładnicze, określając go jako model ARIMA(0,1,1) bez stałej, a zatem szacunkowy współczynnik MA(1) odpowiada 1-minus-alfa we wzorze SES. Przypomnijmy, że w ramach modelu SES typowy wiek informacji w prognozach z jednokrotnym wyprzedzeniem wynosi 1/α, co oznacza, że będą one miały tendencję do pozostawania w tyle za trendami lub punktami zwrotnymi o około 1/α. Wynika z tego, że typowy wiek informacji w prognozach z jednokrotnym wyprzedzeniem w modelu ARIMA(0,1,1)- bez modelu stałego wynosi 1/(1-θ1). Tak więc, na przykład, jeśli θ1 = 0,8, typowy wiek wynosi 5. Gdy θ1 zbliża się do 1, ARIMA(0,1,1)- bez modelu stałego staje się bardzo długookresową średnią kroczącą, a gdy θ1 zbliża się do 0, staje się modelem random-walk-without-drift.

Co jest najprostsze dzięki poprawce dla autokorelacji: dodanie terminów AR lub dodanie terminów MA? W ramach dwóch poprzednich modeli omówionych powyżej, kwestia błędów związanych z autokorelacją podczas modelu procesu stochastycznego została ustalona na dwa różne sposoby: poprzez dodanie opóźnionej wartości różnych szeregów do równania lub dodanie opóźnionej wartości błędu prognozy. Które podejście jest najlepsze? Zasadą obowiązującą w tym przykładzie, która może być później omówiona bardziej szczegółowo, jest to, że dodatnią autokorelację najlepiej jest zazwyczaj traktować poprzez dodanie do modelu terminu AR, a ujemną autokorelację najlepiej traktować poprzez dodanie terminu MA. W statystyce biznesowej i gospodarczej autokorelacja ujemna często pojawia się jako artefakt różnicowania. (Na ogóá, róĪnicowanie zmniejsza autokorelacjĊ dodatnią i powinno nawet spowodowaü przestawienie siĊ z autokorelacji dodatniej na ujemną). Tak więc, model ARIMA(0,1,1), podczas którego różnicowanie jest pośród terminów MA, jest częściej stosowany niż model ARIMA(1,1,0).

ARIMA(0,1,1) ze stałą = proste wygładzanie wykładnicze ze wzrostem: Wdrażając model SES jako model ARIMA, naprawdę zyskujesz pewną elastyczność. Po pierwsze, szacowany współczynnik MA(1) może być ujemny: odpowiada on współczynnikowi wygładzania większemu niż 1 w modelu SES, co zazwyczaj nie jest dozwolone w procedurze dopasowywania modelu SES. Po drugie, istnieje możliwość włączenia do modelu ARIMA okresu ciągłego, jeśli Państwo chcą, tak aby oszacować średni trend niezerowy. Model ARIMA(0,1,1) ze stałą ma równanie predykcyjne:

Ŷt = μ + Yt-1 – θ1et-1

Prognozy z jednego okresu prognozy z tego modelu są jakościowo zbliżone do tych z modelu SES, z tą różnicą, że trajektoria prognoz długoterminowych jest zazwyczaj linią nachyloną (której nachylenie jest odpowiednie dla mu), a nie linią poziomą.

ARIMA(0,2,1) lub (0,2,2) bez stałej = liniowe wygładzanie wykładnicze: liniowe modele wygładzania wykładniczego są modelami ARIMA, które wykorzystują dwie niesezonowe różnice w połączeniu z pojęciami MA. Druga różnica w serii Y nie jest po prostu różnicą pomiędzy Y i samą sobą opóźnioną o dwa okresy, ale raczej jest to podstawowa różnica różnicy podstawowej – tj. zmiana-zmiana Y w okresie t. Zatem druga różnica Y w okresie t jest odpowiednia dla (Yt – Yt-1) – (Yt-1 – Yt-2) = Yt – 2Yt-1 + Yt-2. Druga różnica funkcji dyskretnej jest analogiczna do drugiej pochodnej funkcji nieskończonej: mierzy ona “przyspieszenie” lub “krzywiznę” w obrębie funkcji w danym momencie czasu.

Model ARIMA(0,2,2) bez stałej przewiduje, że druga różnica szeregu równa się funkcji liniowej dwóch ostatnich błędów prognozy:

Ŷt – 2Yt-1 + Yt-2 = – θ1et-1 – θ2et-2

która może być przeorganizowana jak:

Ŷt = 2 Yt-1 – Yt-2 – θ1et-1 – θ2et-2

gdzie θ1 i θ2 są współczynnikami MA(1) i MA(2). jest to często ogólny liniowy model wygładzania wykładniczego, zasadniczo równoważny z modelem Holta, a model Browna może być przypadkiem szczególnym. Wykorzystuje on wykładniczo ważone średnie kroczące do oszacowania zarówno poziomu powierzchni, jak i trendu powierzchni w ramach serii. Prognozy długoterminowe z tego modelu zbiegają się z linią, której nachylenie zależy od typowego trendu obserwowanego w górnej części serii.

ARIMA(1,1,2) bez stałego = wytłumionego trendu liniowego wygładzania wykładniczego:

Ŷt = Yt-1 + ϕ1 (Yt-1 – Yt-2 ) – θ1et-1 – θ1et-1

Model ten jest zilustrowany w załączonych slajdach na modelach ARIMA. Ekstrapoluje on lokalny trend w górnej części serii, ale spłaszcza go w dłuższych horyzontach prognozy, aby wprowadzić nutę konserwatyzmu, praktykę, która ma poparcie empiryczne. Zobacz artykuł “Why the Damped Trend works” autorstwa Gardnera i McKenzie’ego, a tym samym artykuł “Golden Rule” autorstwa Armstronga i innych.

Generalnie zaleca się pozostawanie przy modelach, w których minimum jedno z p i q nie jest większe niż 1, tzn. nie próbuje się dopasować takiego modelu jak ARIMA(2,1,2), ponieważ często jest to skłonne do nadmiernego dopasowania i “czynnika wspólnego”, które są omówione szczegółowo w uwagach dotyczących struktury matematycznej modeli ARIMA.

Realizacja arkusza kalkulacyjnego: Modele ARIMA, takie jak opisane powyżej, są łatwe do implementacji w arkuszu kalkulacyjnym. Równanie predykcyjne jest tylko równaniem, które odnosi się do przeszłych wartości pierwotnej statystyki i przeszłych wartości błędów. Tak więc arkusz prognostyczny ARIMA można znaleźć poprzez zapisanie informacji w kolumnie A, wzoru prognostycznego w kolumnie B, a zatem błędów (dane minus prognozy) w kolumnie C. Wzór prognostyczny w typowej komórce w kolumnie B byłby po prostu wyrażeniem liniowym odnoszącym się do wartości w poprzednich wierszach kolumn A i C, pomnożonym przez dopuszczalne współczynniki AR lub MA zapisane w komórkach w innym miejscu arkusza.