[БЕЗ_ЗВУКА] В этом видео мы познакомимся с автокорреляцией — одним из важнейших свойств временных рядов. А разбирать мы его будем вот на таком примере. Перед вами суммарный объем продаж вина в Австралии в количестве бутылок за каждый месяц на протяжении почти 15 лет. Этот временной ряд обладает ярко выраженной годовой сезонностью. Каждый год максимум продаж приходится на декабрь. За этим максимумом приходится довольно существенное падение в январе. В январе объем продаж всегда самый маленький в течение всего года. Давайте посмотрим, насколько сильно связаны друг с другом значения объемов продаж вина в соседние месяцы. Для этого построим вот такой график. По горизонтальной оси здесь отложен y в момент времени t, по вертикальной — y в момент времени t + 1. Таким образом, каждая точка задает продажи в два соседних месяца. Мы видим, что большая часть точек на этом графике группируется достаточно плотно вокруг главной диагонали. Это говорит о том, что значения продаж в соседние месяцы в основном похожи. Еще одно подмножество точек, которое здесь выделяется в правом нижнем углу, как раз связано с теми самыми падениями продаж от декабря к январю, которые мы видели на предыдущем графике. Если мы построим аналогичный график, но по вертикальной оси отложим не y(t + 1), а y(t + 2), мы увидим, что точки вокруг диагонали в основном облаке начинают расплываться. То есть сходство между продажами в месяце через один уменьшается. Если мы возьмем продажи через два месяца, облако станет еще шире, сходства еще меньше. Однако если мы возьмем продажи вина в одни и те же месяцы соседних лет, точки снова стянутся к главной диагонали на нашем графике. То есть значения продаж в одни и те же месяцы соседних лет очень сильно похожи. Квантифицировать степень сходства между значениями ряда в соседних точках можно с помощью величины, которая называется автокорреляция. Определяется она вот так, а по сути представляет собой обычную корреляцию Пирсона между исходным рядом и его версией, сдвинутой на несколько отсчетов. Вот это количество отсчетов, на которые мы сдвигаем ряд, прежде чем посчитать корреляцию, называется лагом автокорреляции. Автокорреляция принимает значения от − 1 до 1 точно так же, как и обычная корреляция Пирсона, а вот так она считается по выборке. По сути, в этом выражении просто все математические ожидания заменены на выборочные средние, все дисперсии — на выборочные дисперсии, после этого сокращены константы. Анализировать значения автокорреляции при разных лагах удобно на графике, который называется коррелограммой. По сути, это график, на котором значения автокорреляции просто отложены в зависимости от τ. Перед вами снова ряд с продажами вина в Австралии и его коррелограмма. Эта коррелограмма имеет типичный вид для ряда, у которого выраженная сезонность. В лагах, кратных сезонному периоду, мы видим большие значения автокорреляции. А вот так выглядит автокорреляция ряда, у которого выраженный тренд. Она тем больше, чем меньше τ, и с ростом τ она начинает постепенно убывать, может быть, колеблясь по синусоиде вокруг горизонтальной оси, соответствующей нулевому значению автокорреляции. Вот автокорреляция ряда с ежемесячным производством электричества в Австралии. В этом ряде есть и тренд, и сезонность. Поэтому здесь есть оба эффекта, о которых мы только что говорили. Тренд здесь настолько сильный, что он вот этот сезонный эффект с пиками в лагах, кратных сезонному периоду, практически сбивает. А вот это типичная коррелограмма ряда, у которого есть сезонность и цикл. Для самого первого лага, кратного сезонному периоду, то есть для года здесь, мы все еще видим пик, но дальше положение этого пика начинает смещаться относительно лагов, кратных сезонному периоду, то есть следующий пик не приходится на два, три, четыре года. И это происходит из-за того, что в ряде есть циклы, длина периода которых плавно меняется. А вот коррелограмма ежедневных изменений индекса Доу-Джонса. Все автокорреляции здесь достаточно маленькие, они близки к нулю, за исключением, естественно, самой первой, которая рисуется при лаге ноль, когда мы считаем корреляцию ряда с самим собой в точности и не делаем никакого сдвига. Естественно, такая автокорреляция всегда равна единице. Возможно, вы заметили на всех этих графиках вот такой загадочный синий коридор вокруг горизонтальной оси. Что этот коридор означает? Стандартные средства работы с временными рядами, как правило, рисуют этот коридор значимости отличий корреляции от нуля, то есть все автокорреляции, которые высовываются из этого коридора, фактически значимо отличаются от нуля. Вот эта значимость считается с помощью уже знакомого нам критерия Стьюдента, точно такого же, как мы использовали для обычной корреляции Пирсона. В данной версии он выглядит следующим образом. Вы берете временной ряд, проверяете нулевую гипотезу о том, что при каком-то фиксированном лаге τ значение автокорреляции равно нулю. Скорее всего, вы это делаете против двусторонней альтернативы, потому что крайне редко при анализе временных рядов у вас есть гипотеза о том, какая именно автокорреляция, положительная или отрицательная. Проверяется эта гипотеза с помощью T-статистики, которая вычисляется с помощью значений автокорреляции, длины ряда и номера лага τ. Если нулевая гипотеза справедлива, эта статистика имеет распределение Стьюдента с числом степеней свободы T − τ − 2. Вернувшись к коррелограмме с ежедневными изменениями индекса Доу-Джонса, мы теперь замечаем, что ни одна автокорреляция здесь не высовывается никогда из коридора незначимости, то есть никакая автокорреляция здесь не является значимо отличающейся от нуля. Итак, в этом видео мы поговорили о том, что такое автокорреляция — мера силы линейной связи между значениями ряда в настоящем и прошлом. Мы узнали, что такое коррелограмма — это график автокорреляционной функции, и как эту коррелограмму правильно читать, как на ней отражается наличие в ряде разных компонент — тренда, сезонности и циклов. Кроме того, мы узнали, как проверяется гипотеза отличия автокорреляции от нуля. В следующих видео мы будем говорить о том, как структуру автокорреляционной функции ряда можно использовать при построении его прогнозирующей модели.