[БЕЗ_ЗВУКА] В этом видео мы поговорим про модели типа ARIMA — обобщение модели класса ARMA. На данный момент нам известно два важных факта: во-первых, что моделями типа ARMA любой стационарный ряд может быть описан с любой наперед заданной точностью. Во-вторых, что если мы имеем дело с нестационарным рядом, стационарным может оказаться ряд его первых сезонных, или обычных разностей, или не первых, а каких-то следующих, то есть мы знаем, как делать нестационарные ряды стационарными — мы просто их дифференцируем. Эти две идеи и лежат в основе класса модели ARIMA. Моделью ARIMA порядка (p, d, q) называется модель ARMA порядка (p, q) для ряда, который d раз продифференцировали. Перед вами 300 значений индекса Доу-Джонса. Мы уже знаем, что этот ряд нестационарен — да это и видно невооруженным глазом, — но зато стационарен ряд его первых разностей. А это значит, что для ряда разностей, скорее всего, можно подобрать достаточно хорошую модель в классе ARMA. Сделаем это, а затем проведем операцию, обратную дифференцированию. Таким образом мы получим модель ARIMA для исходного ряда. Вот она перед вами. Это модель ARIMA порядка (0, 1, 0), то есть в ней есть одно дифференцирование и ни одной компоненты авторегрессии и скользящего среднего. Это немного странно, то есть модель первых разностей мы моделируем константой. Но когда мы проводим операцию, обратную дифференцированию, то, что получается, в итоге константой уже не является. В этой модели есть свои странности, но в любом случае она намного лучше того, что можно было бы получить, делая просто регрессию этого ряда на какие временные признаки. Давайте теперь разберемся с сезонностью. Пусть наш ряд имеет сезонный период длины S. Возьмем для начала модель ARMA (p, q) и добавим в нее, во-первых, P авторегрессионных компонент, но не предыдущих, а взятых с шагом, равным периоду сезонности, то есть регрессию будет делать на yt − S, yt − 2S, ..., y t − PS. Точно так же добавим Q компонент скользящего среднего, то регрессию на шумовые компоненты в моменты времени t − S, ..., t − QS. Такая модель, в которой сложены вот эти все три части, называется моделью SARMA порядка (p, q) x (P, Q) — вот так это записывается. Наконец, последнее обобщение: моделью SARIMA порядка (p, d, q) x (P, D, Q) называется модель SARMA порядка (p, q) x (P, Q) для ряда, к которому d раз было применено обычное дифференцирование и D раз сезонное. Вот эта модель с шестью параметрами часто называется просто ARIMA, то есть первая буква в названии этой модели часто не пишется, но подразумевается, что сезонная компонента тоже может быть. Вернемся к ряду с реальной заработной платой в России. Критерий Дики-Фуллера не отвергает гипотезу о том, что этот ряд нестационарен. Это нас не удивляет — мы видим, что во времени здесь довольно много всего меняется. Для начала у него меняется дисперсия, то есть разброс скачков ряда в начале совсем не такой, как ближе к концу. Давайте проведем преобразование Бокса-Кокса: выберем оптимальное значение параметра λ, преобразованный ряд перед вами на графике. Критерий Дики-Фуллера все еще не отвергает для этого ряда гипотезу нестационарности. Ну, он сезонный, и тренд тоже здесь довольно выражен, поэтому давайте его еще продифференцируем. Сделаем сезонные дифференцирования — полученный ряд перед вами. Критерий Дики-Фуллера на сей раз гипотезу нестационарности отвергает. То есть для этого ряда мы уже можем утверждать, что он является стационарным, а значит, для него можно попытаться подобрать модель в классе ARMA. Или, на самом деле, можно даже попробовать сразу сезонную какую-то модель. Если мы вернемся обратно к модели исходного ряда, проведя обратное преобразование к преобразованию Бокса-Кокса и к проведенному сезонному дифференцированию, вот так может, например, выглядеть модель. Это модель SARIMA порядка (2, 0, 1) x (2, 1, 2) с преобразованием Бокса-Кокса. Здесь красная линия — это предсказание нашей модели. Как видим, она достаточно хорошо описывает наш исходные ряд, а значит, мы можем надеяться, что и прогнозы она будет давать достаточно хорошие. Давайте вспомним, как для этого ряда выглядели остатки простых регрессионных моделей. Когда мы делали регрессию на линейный квадратичный тренд во времени, мы получали вот такие остатки — мы в них видим очень много структуры, а это значит, что в данных еще остается очень много информации, которую наша модель не учитывает. Вот так выглядят остатки модели ARIMA, которую мы только что построили. Эти остатки намного больше похожи на белый шум, в них есть некий выброс — это кризис 98-го года, который построенной нами моделью плохо описывается. Но тем не менее структуры в том, что осталось после применения нашей модели ARIMA, практически уже нет. В любом случае это что-то намного лучше, чем наша линейная регрессия. Итак, в этом видео мы разобрали класс моделей ARIMA, который описывает произвольные, в том числе нестационарные, временные ряды. В следующем видео мы разберемся с тем, как подбирать многочисленные параметры, которые в моделях ARIMA есть.