Уравнение прогнозирования ARIMA(p,d,q): Модели ARIMA являются, теоретически, основным общим классом моделей для прогнозирования статистики, которая может быть сделана “стационарной” путем дифференцирования (при необходимости), возможно, в сочетании с нелинейными преобразованиями, такими как каротаж или сдувание (при необходимости). Вариант, который является статистическим, является стационарным, если его статистические свойства являются постоянными во времени. Стационарный ряд не имеет тенденции, его вариации вокруг среднего имеют непрерывную амплитуду, и в течение последовательной моды, т.е. его кратковременные случайные временные закономерности всегда выглядят эквивалентно в статистическом смысле. Последнее условие означает, что его автокорреляции (корреляции с его собственными предыдущими отклонениями от среднего) остаются постоянными во времени или эквивалентно тому, что его спектр мощности остается постоянным во времени. Вариант этого типа часто рассматривается (как обычный) как смесь сигнала и шума, и поэтому сигнал (если он проявляется) может быть закономерностью быстрого или медленного среднего реверсирования, или синусоидальной осцилляции, или быстрого чередования знаков, и он может даже иметь сезонную составляющую. Модель ARIMA часто рассматривается как “фильтр”, который пытается отделить сигнал от шума, и поэтому сигнал затем экстраполируется в более долгосрочную перспективу для получения прогнозов.

Уравнение прогнозирования ARIMA для стационарной статистики может быть линейным (т.е. регрессионным) уравнением, в котором предикторы содержат лаги переменной и/или лаги ошибок прогноза. То есть:

Прогнозируемое значение Y = непрерывная и/или взвешенная сумма 1 или более новых значений Y и/или взвешенная сумма 1 или более новых значений ошибок.

Если предикторы состоят только из запаздывающих значений Y, то это чистая авторегрессионная (“саморегрессионная”) модель, которая является просто частным случаем регрессионной модели и может быть оснащена стандартным программным обеспечением для регрессии. Например, авторегрессионная модель первого порядка (“AR(1)”) для Y может быть регрессионной моделью, в которой экспериментальная переменная просто Y запаздывает на один период (LAG(Y,1) в Statgraphics или Y_LAG1 в RegressIt). Если ряд предикторов является лагом ошибок, то ARIMA модель – это НЕ прямолинейная регрессионная модель, так как нет необходимости указывать “ошибку последнего периода” в качестве независимой переменной: ошибки должны вычисляться на основе периода к периоду, когда модель подогнана под информацию . С технической точки зрения, дело с использованием лаговых ошибок в качестве предикторов заключается в том, что предсказания модели не являются линейными функциями коэффициентов, хотя и являются линейными функциями данных прошлых периодов. Таким образом, коэффициенты в моделях ARIMA, включающие в себя запаздывающие ошибки, должны оцениваться нелинейными методами оптимизации (“подъем на холм”), а не просто путем решения системы уравнений.

Сокращение ARIMA означает Auto-Regressive Integrated Moving Average. Лаги стационарного ряда в уравнении прогнозирования называются “авторегрессивными” членами, лаги ошибок прогнозирования называются “скользящими средними” членами, а стационарная статистика, которую необходимо различать для того, чтобы сделать стационарной, претендует на “интегрированную” версию стационарного ряда. Случайные и случайные модели трендов, авторегрессивные модели, экспоненциальные модели сглаживания – все это особые случаи ARIMA-моделей.

Несезонная модель ARIMA оценивается как модель “ARIMA(p,d,q)”, где:

p – это количество авторегрессивных терминов,

d заключается в том, что количество несезонных различий, необходимых для стационарности, и

q – это количество запаздывающих ошибок прогноза в уравнении прогноза.

Уравнение прогнозирования выполнено следующим образом. Сначала обозначим разницу в dth по Y, что означает:

Если d=0: yt = Yt

Если d=1: yt = Yt – Yt-1

Если d=2: yt = (Yt – Yt-1) – (Yt-1 – Yt-2) = Yt – 2Yt-1 + Yt-2

Обратите внимание, что вторая разница Y (случай d=2) не является разницей от 2-х периодов назад. Скорее, это первая разность первой разности, то есть дискретный аналог второй производной, т.е. локальное ускорение ряда, а не его локальный тренд.

С точки зрения y – общее уравнение прогнозирования:

ŷt = μ + ϕ1 yt-1 +…+ ϕp yt-p – θ1et-1 -…- θqet-q.

Здесь параметры скользящей средней (θ) определяются в том порядке, в котором их знаки являются отрицательными в рамках уравнения, в соответствии с конвенцией, введенной Боксом и Дженкинсом. Некоторые авторы и программы (включая язык программирования R) определяют их в том порядке, в котором они нуждаются в знаках плюс. Когда фактические числа подключены в уравнение, нет никакой двусмысленности, но важно понимать, какую конвенцию использует ваше программное обеспечение, как только вы читаете выходные данные. Часто там параметры обозначаются AR(1), AR(2), … и MA(1), MA(2), … и т.д…

Чтобы определить приемлемую модель ARIMA для Y, начните с определения порядка дифференциации (d), желая поместить ряд в стационарное положение и убрать валовые признаки сезонности, возможно, в сочетании с дисперсионно-стабилизирующим преобразованием, таким как каротаж или сдувание. Если вы остановитесь на этом и спрогнозируете, что дифференцированные ряды являются постоянными, то вы просто подогнать стохастический процесс или случайную модель тренда. Однако стационарный ряд должен иметь автокорреляционные ошибки, что предполагает, что в уравнении прогнозирования также необходимо некоторое количество членов AR (p ≥ 1) и/или некоторое количество членов MA (q ≥ 1).

Процесс определения значений p, d и q, которые лучше всего подходят для данной статистики, будет обсуждаться в последующих разделах заметок (ссылки на которые находятся в верхней части этой страницы), однако ниже приведен предварительный обзор ряда видов несезонных ARIMA-моделей, которые обычно встречаются.

ARIMA(1,0,0) = авторегрессионная модель первого порядка: если ряд стационарен и автокорреляционен, то, возможно, его часто предсказывают как кратный его собственному предшествующему значению плюс продолжающийся . Уравнение прогнозирования в этом случае

Ŷt = μ + ϕ1Yt-1

…которая по Y регрессирует на себя с отставанием на один период. Часто это модель “ARIMA(1,0,0)+константа”. Если среднее значение Y равно нулю, то постоянный член не включается.

Если коэффициент наклона ϕ1 положительный и менее 1 в магнитуде (он должен быть только 1 в магнитуде, если Y стационарен), то модель описывает поведение среднего реверса, при котором значение следующего периода должно быть предсказано ϕ1 в разы дальше от среднего, чем значение этого периода. Если значение ϕ1 отрицательное, то она предсказывает среднеобратное поведение с чередованием знаков, т.е. она также предсказывает, что Y будет ниже среднего значения следующего периода, если оно выше среднего значения этого периода.

В авторегрессионной модели второго порядка (ARIMA(2,0,0)) на собственном также будет существовать член Yt-2 , и т.д. Рассчитывая на знаки и величины коэффициентов, модель ARIMA(2,0,0) могла бы описать систему, средняя реверсия которой происходит при синусоидально колеблющемся режиме, точно так же, как и движение массы по пружине, подверженной случайным ударам.

ARIMA(0,1,0) = случайная ходьба: Если ряд Y не является стационарным, то единственно возможной моделью для него является модель стохастического процесса, которую можно рассматривать как предельный случай модели AR(1), при котором коэффициент авторегрессии достаточен до 1, т.е. ряда с бесконечно медленным средним реверсированием. Уравнение предсказания для этой модели часто пишут как:

Ŷt – Yt-1 = μ

или эквивалентно

Ŷt = μ + Yt-1

где постоянным членом является изменение среднего периода к периоду (т.е. долгосрочный дрейф) в Y. Эта модель может быть подогнана под регрессионную модель без перехвата, в которой первичная разница в Y заключается в том, что переменная . Так как она включает (только) несезонную разницу и непрерывный член, она классифицируется как “ARIMA(0,1,0) модель с константой”. Случайная модель без константы была бы моделью ARIMA(0,1,0) без константы.

ARIMA(1,1,0) = дифференцированная авторегрессионная модель первого порядка: Если ошибки модели стохастического процесса автокорректны, то, возможно, часто дело фиксируется добавлением в уравнение предсказания одного лага переменной – т.е. регрессией первичной разности Y на себя отстающей на один период. Это позволяет получить последующее уравнение предсказания:

Ŷt – Yt-1 = μ + ϕ1(Yt-1 – Yt-2)

Ŷt – Yt-1 = μ

который может быть перегруппирован под

Ŷt = μ + Yt-1 + ϕ1 (Yt-1 – Yt-2)

Это авторегрессионная модель первого порядка с одним порядком несезонных различий и непрерывным членом – т.е. модель ARIMA(1,1,0).

ARIMA(0,1,1) без константы = простое экспоненциальное сглаживание: Другая стратегия исправления автокоррегрессионных ошибок при стохастической модели процесса обычно рекомендуется моделью прямого экспоненциального сглаживания. Напомним, что для некоторых нестационарных статистик (например, таких, которые демонстрируют шумные колебания вокруг медленно меняющегося среднего), модель стохастического процесса не работает также как скользящее среднее прошлых значений. Другими словами, вместо того, чтобы брать самые последние наблюдения, потому что прогноз последующего наблюдения, лучше использовать среднее из предыдущих пары наблюдений, чтобы отфильтровать шум и более точно оценить локальное среднее. Модель прямого экспоненциального сглаживания использует экспоненциально взвешенное скользящее среднее прошлых значений для реализации этого эффекта. Уравнение прогноза для модели прямого экспоненциального сглаживания часто записывается в нескольких математически эквивалентных формах, одной из которых является так называемая “коррекция ошибки”, при которой предыдущий прогноз корректируется в направлении ошибки, которую он сделал:

Ŷt = Ŷt-1 + αet-1

Поскольку et-1 = Yt-1 – Ŷt-1 по определению, это будет переписано как:

Ŷt = Yt-1 – (1-α)et-1

= Yt-1 – θ1et-1

которая является ARIMA(0,1,1)-уравнением без постоянного прогнозирования с θ1 = 1-α. Это говорит о том, что можно просто подогнать легкое экспоненциальное сглаживание, указав его как модель ARIMA(0,1,1) без константы, и, следовательно, оценочный коэффициент MA(1) соответствует 1-минус-альфа в формуле SES. Напомним, что в рамках модели SES типичный возраст информации в прогнозах на 1-период вперед составляет 1/α, что означает, что они будут иметь тенденцию отставать от трендов или поворотных точек примерно на 1/α периоды. Из этого следует, что типичный возраст информации в прогнозах на 1-период вперед ARIMA(0,1,1)- без постоянной модели равен 1/(1-θ1). Так, например, если θ1 = 0.8, то типичный возраст равен 5. По мере приближения θ1 к 1, ARIMA(0,1,1)-без постоянной модели становится вертикальной долгосрочной скользящей средней, а по мере приближения θ1 к 0 она становится случайной моделью без дрейфа.

Что самое простое благодаря правильной автокорреляции: добавление членов AR или добавление членов MA? В двух предыдущих моделях, рассмотренных выше, вопрос об автокорреляционных ошибках при стохастической модели процесса фиксировался двумя разными способами: добавлением в уравнение запаздывающего значения дифференцированного ряда или добавлением запаздывающего значения ошибки прогноза. Какой подход является наилучшим? Эмпирическим правилом для данного примера, которое может быть подробно рассмотрено позже, является то, что положительную автокорреляцию, как правило, лучше всего рассматривать путем добавления в модель члена AR, а отрицательную автокорреляцию, как правило, лучше всего рассматривать путем добавления члена MA. В деловой и экономической статистике отрицательная автокорреляция часто возникает как артефакт дифференциации. (В целом, дифференциация снижает положительную автокорреляцию и даже должна вызывать переход от положительной автокорреляции к отрицательной). Таким образом, модель ARIMA(0,1,1), при которой дифференциация происходит в рамках термина МА, используется чаще, чем модель ARIMA(1,1,0).

ARIMA(0,1,1) с постоянным = простым экспоненциальным сглаживанием с ростом: Реализуя модель SES как ARIMA, вы действительно получаете некоторую гибкость. Прежде всего, расчетный коэффициент MA(1) допускается отрицательным: это соответствует коэффициенту сглаживания, превышающему 1 в SES-модели, что обычно не допускается процедурой подгонки SES-модели. Во-вторых, при желании можно включить в модель ARIMA непрерывный член, чтобы оценить средний ненулевой тренд. Модель ARIMA(0,1,1) с константой имеет уравнение прогнозирования:

Ŷt = μ + Yt-1 – θ1et-1

Прогнозы на один период вперед от этой модели качественно напоминают прогнозы модели SES, за исключением того, что траектория долгосрочных прогнозов обычно представляет собой наклонную линию (наклон которой достаточен до mu), а не горизонтальную линию.

ARIMA(0,2,1) или (0,2,2) без константы = линейное экспоненциальное сглаживание: Линейные модели экспоненциального сглаживания – это модели ARIMA, использующие две несезонные разности в сочетании с терминами МА. Вторая разница ряда Y – это не просто разница между Y и сама по себе отстающая на два периода, а первичная разница первичной разницы – т.е. изменение-изменение Y в периоде t. Таким образом, вторая разница Y в периоде t адекватна (Yt – Yt-1) – (Yt-1 – Yt-2) = Yt – 2Yt-1 + Yt-2. Вторая разность дискретной функции аналогична второй производной бесконечной функции: она измеряет “ускорение” или “кривизну” внутри функции в заданный момент времени.

Модель ARIMA(0,2,2) без константы предсказывает, что вторая разность ряда равна линейной функции двух последних ошибок прогноза:

Ŷt – 2Yt-1 + Yt-2 = – θ1et-1 – θ2et-2.

которая может быть переставлена как:

Ŷt = 2 Yt-1 – Yt-2 – θ1et-1 – θ2et-2.

где θ1 и θ2 – коэффициенты MA(1) и MA(2). Часто это общая линейная экспоненциальная модель сглаживания, по существу эквивалентная модели Хольта, а модель Брауна может быть особым случаем. Она использует экспоненциально взвешенные скользящие средние для оценки как уровня области, так и тренда области внутри ряда. Долгосрочные прогнозы от этой модели сходятся в линию, наклон которой зависит от типичного тренда, наблюдаемого в направлении вершины ряда.

ARIMA(1,1,2) без константы = линейное экспоненциальное сглаживание демпфированного тренда:

Ŷt = Yt-1 + ϕ1 (Yt-1 – Yt-2 ) – θ1et-1 – θ1et-1.

Данная модель проиллюстрирована в прилагаемых слайдах по моделям ARIMA. Она экстраполирует локальный тренд в верхней части серии, но сглаживает его при более длинных горизонтах прогноза, чтобы ввести ноту консерватизма, практику, которая имеет эмпирическую поддержку. Подробности см. в статье Гарднера и Маккензи “Почему затухающий тренд работает” и, следовательно, в статье Армстронга и других авторов “Золотое правило”.

Обычно рекомендуется останавливаться на моделях, в которых минимум один из p и q не больше 1, т.е. не пытаться подогнать модель типа ARIMA(2,1,2), так как это часто приводит к переподбору и вопросам “общего фактора”, которые более подробно обсуждаются в примечаниях по математической структуре моделей ARIMA.

Реализация электронных таблиц: Модели ARIMA, подобные описанным выше, легко реализовать в электронной таблице. Уравнение прогнозирования – это всего лишь уравнение, которое ссылается на прошлые значения исходной статистики и прошлые значения ошибок. Таким образом, в таблице прогнозирования ARIMA можно узнать, сохранив информацию в столбце А, формулу прогнозирования – в столбце В, и, следовательно, ошибки (данные минус прогнозы) – в столбце С. Формула прогнозирования во время работы типичной ячейки в столбце В будет просто линейным выражением, относящимся к значениям в предшествующих рядах столбцов А и С, умноженным на допустимые коэффициенты AR или MA, хранящиеся в ячейках в других местах таблицы.