Независимо от того, хотим ли мы предсказать тенденцию на финансовых рынках или потребление электроэнергии, время является решающим фактором, который теперь должен учитываться в наших моделях. Например, может быть интересно не только знать, когда акции подорожают, но и когда они поднимутся.

Введите статистику. Статистика – это всего лишь серия точек знания, упорядоченных во времени. Во время статистики время, как правило, является экспериментальной переменной, и поэтому целью обычно является формирование прогноза на более длительный срок.

Однако, есть и другие аспекты, которые наследуют игру при работе со статистикой.

Является ли она стационарной?

Есть ли сезонность?

Является ли целевая переменная автокоррелированной?

В этой заметке я смогу рассказать о различных характеристиках ваших временных рядов и о том, как мы будем их моделировать для получения точных (насколько это возможно) прогнозов.

Автокорреляция

https://miro.medium.com/max/1034/1*1SnyrVnYQ747DkltaH6nkQ.png

Неофициально автокорреляция заключается в том, что сходство между наблюдениями как функция задержки между ними.

Выше приведен пример графика автокорреляции. Внимательно присмотревшись, понимаешь, что первичное и, следовательно, 24-е значение имеют высокую автокорреляцию. Точно так же 12-е и 36-е наблюдения имеют высокую корреляцию. Это говорит о том, что мы найдем действительно похожее значение на каждые 24 единицы вашего времени.

Обратите внимание, что график похож на синусоидальную функцию. Это часто является прикосновением к сезонности, и вы найдете его значение, найдя сумму внутри графика выше, которая может дать 24 часа.

Сезонность

https://miro.medium.com/max/1686/1*E4vvt9qPqlUDalI0VJXIZQ.png

Сезонность относится к периодическим колебаниям. Например, потребление электроэнергии днем высокое, а ночью низкое, или рост продаж через Интернет во время Рождества, прежде чем снова замедлиться.

Как вы увидите выше, существует прозрачная ежедневная сезонность. Каждый день вы видите пик к вечеру, и поэтому самыми низкими точками являются начало и конец каждого дня.

Помните, что сезонность также может быть выведена из автокорреляционного графика, если это синусоидальная форма. Просто проверьте сумму, и она даст длину сезона.

https://miro.medium.com/max/1307/1*tCCq8QoJGYTmrJZiYafLlw.png

Стационарность

Стационарность является важнейшей характеристикой вашего временного ряда. Статистика считается стационарной, если ее статистические свойства не меняются с течением времени. Другими словами, это постоянная средняя и дисперсия, и ковариативность не зависит от вашего времени.

Взглянув еще раз на эквивалентный график, мы видим, что вышеприведенный метод является стационарным. Среднее и дисперсия не изменяются во времени.

Часто цены на акции не являются стационарными, так как мы видим растущий тренд, или его волатильность может увеличиваться со временем (это означает, что дисперсия меняется).

В идеале, мы хотели бы иметь стационарную статистику для моделирования. Конечно, не все из них стационарны, но мы будем делать различные преобразования, чтобы сформировать их стационарными.

https://miro.medium.com/max/861/1*1-836SFvfceTixAK1ERvcA.png

Как проверить, является ли процесс стационарным

Возможно, вы заметили в названии сюжета над Дикки-Фуллером. Это часто является статистическим тестом, который мы запускаем, чтобы выяснить, является ли статистика стационарной или нет.

Не вдаваясь в технические подробности теста Дики-Фуллера, он проверяет нулевую гипотезу о наличии единичного корня.

Если это так, то p > 0, и, следовательно, процесс не является стационарным.

В противном случае, p = 0, нулевая гипотеза отвергается, и, следовательно, процесс учитывается как стационарный.

В качестве примера нижеприведенный метод не является стационарным. Обратите внимание, что среднее не является постоянным во времени.

Моделирующая статистика

Есть несколько способов моделирования статистики для формирования прогнозов. Здесь я смогу представить:

скользящее среднее

https://miro.medium.com/max/1300/1*ZlXokSCFkJfWEs9lZDebKw.png

Экспоненциальное сглаживание

ARIMA

Скользящее среднее

Модель скользящей средней является, пожалуй, самым наивным подходом к статистическому моделированию. Эта модель просто утверждает, что последующее наблюдение является средним значением всех прошлых наблюдений.

Несмотря на простоту, эта модель может быть удивительно хорошей и представляет собой честную стартовую линию.

В противном случае, скользящее среднее часто не позволяет выявить интересные тенденции в данных. Мы определим окно для использования модели скользящей средней для сглаживания статистики и выделения различных трендов.

На приведенном выше графике мы применили модель скользящей средней к 24-часовому окну. Зеленая линия сгладила статистику, и мы видим, что в течение 24 часов есть 2 пика.

https://miro.medium.com/max/1232/1*W4rf6AHqWG0ti6XUMljIEw.png

Конечно, чем длиннее окно, тем более плавным будет тренд. Ниже приведен пример скользящей средней на меньшем по размеру окне.

Экспоненциальное сглаживание

Экспоненциальное сглаживание использует ту же логику, что и скользящее среднее, но в этой точке каждому наблюдению присваивается особый понижающий вес. Другими словами, по мере того, как мы выходим за рамки этого, меньшее значение придается наблюдениям.

https://miro.medium.com/max/1308/1*0XOdCfCaZ6Xbrzg_AT8FnA.png

Альфа-фактор является сглаживающим фактором, который принимает значения от 0 до 1. Он определяет, как быстро вес уменьшается при предыдущих наблюдениях

https://miro.medium.com/max/1232/1*1xBpTjWkxYFY_JixAbGuKA.png .

На приведенном выше графике морская линия представляет собой экспоненциальное сглаживание статистики с использованием коэффициента сглаживания 0.3, а оранжевая линия использует коэффициент сглаживания 0.05.

Как вы увидите, чем меньше коэффициент сглаживания, тем более сглаженной будет статистика. Это разумно, потому что фактор сглаживания приближается к 0; мы приближаемся к модели скользящей средней.

Двойное экспоненциальное сглаживание

Двойное экспоненциальное сглаживание используется при наличии тенденции в статистике. в этом случае мы используем эту систему, которая является просто рекурсивным использованием экспоненциального сглаживания дважды.

Математически:

https://miro.medium.com/max/1110/1*23R2PWfpY5_3A3S8lSp3-Q.png

Здесь бета-версия заключается в том, что коэффициент сглаживания тренда принимает значения от 0 до 1.

Ниже вы увидите, как различные значения альфа и бета влияют на форму статистики .Tripe экспоненциального сглаживания

https://miro.medium.com/max/1231/1*9w92QHLVshIHvb2zNCv2lw.png

Этот метод расширяет двойное экспоненциальное сглаживание, добавляя фактор сезонного сглаживания. Конечно, это часто бывает полезно, если вы заметили сезонность в некоторых временных рядах.

Трип экспоненциальное сглаживание

Этот метод расширяет двойное экспоненциальное сглаживание, добавляя фактор сезонного сглаживания. Конечно, это полезно, если вы заметили сезонность в ваших временных рядах.

Математически тройное экспоненциальное сглаживание выражается как:

https://miro.medium.com/max/1204/1*Tt19NBbANCBAze3-vajMXg.png

Где гамма – это фактор сезонного сглаживания, а L – это продолжительность сезона.

Сезонная авторегрессионная интегрированная модель скользящей средней (SARIMA)

SARIMA – это действительно смесь более простых моделей для формирования шикарной модели, которая будет моделировать статистику, демонстрируя нестационарные свойства и сезонность.

Сначала мы имеем авторегрессионную модель AR(p). Часто это в основном регрессия статистики на себя. Здесь мы предполагаем, что текущее значение зависит от его предыдущих значений с некоторым запаздыванием. Потребуется параметр p, который представляет собой крайний лаг. Для поиска его мы смотрим на график частичной автокорреляции и идентифицируем лаг, после которого большинство лагов не значимы.

https://miro.medium.com/max/625/1*h0O1f9rQoHNAl37lPtb9zw.png

В примере ниже p будет 4.

Затем добавляем модель скользящей средней MA(q). Для этого берется параметр q, представляющий собой наиболее важный лаг, после которого другие лаги не являются значимыми на автокорреляционном графике.

Ниже q было бы 4.

https://miro.medium.com/max/622/1*OjMedd6OIe1qFMOfQuuRRg.png

После этого добавляем порядок интеграции I(d). Параметр d представляет собой количество разностей, необходимых для формирования серии стационарных.

Наконец, мы добавляем конечный компонент: сезонность S(P, D, Q, s), где s – это только длина сезона. Кроме того, для этой составляющей требуются параметры P и Q, которые эквивалентны p и q, за исключением сезонной составляющей. Наконец, D – это порядок сезонной интеграции, представляющий собой количество разностей, необходимых для избавления от сезонности ряда.

Объединяя все, мы получаем модель SARIMA(p, d, q)(P, D, Q, s).

Основной вывод из этого часто состоит в том, что перед моделированием с SARIMA, мы должны применить трансформации к нашей статистике, чтобы избавиться от сезонности и любых нестационарных поведений.