Привет! С вами Евгений. В этом уроке мы будем работать с временными рядами и научимся хорошо решать некоторые связанные с ними классические задачи, очень часто возникающие, например, в бизнес-аналитике. Временным рядом называется последовательность y1, ..., yT, ..., ∈ R (потенциально, впрочем, бесконечное) значений признака y, измеряемого через постоянные временные интервалы. Признак y мы будем считать вещественным. Будем работать исключительно с вещественными временными рядами. Важно в этом определении – требование постоянности временного интервала, в которое происходит измерение. Ваш признак вы, может быть, измеряете каждый день, или каждый месяц, или каждый год. Важно, что у вас есть данные именно за последовательные точки с одинаковым временным расстоянием между ними. Временными являются, например, ряды с средними дневными ценами акций какой-нибудь компании, или среднемесячным уровнем безработицы, измеренным за несколько лет, или среднегодовым объемом производства автомобилей за несколько десятилетий. Или вот еще один пример перед вами. Это реальная заработная плата в России в процентах от января 1993 года, измеренная и усредненная за каждый месяц, начиная с этого момента. Как правило, временные ряды интересно прогнозировать, то есть зная значение вашего признака в прошлом, предсказывать, какими они будут в будущем. Формально, это задача ставится, как задача поиска функции fT такой, что значение ряда в момент времени T + d приближается значением этой функции f от известной на момент времени T истории и параметра d. Параметр d определяет, насколько далеко вперед вы хотите предсказывать значение вашего ряда. Как правило, меняется от 1 до некоторой величины D, которая называется горизонтом прогнозирования, d, в свою очередь, отсрочкой прогноза. Практически всегда на протяжении всей нашей специализации до этого, когда мы анализировали данные, мы считали, что имеем дело с простыми выборками. То есть с независимыми одинаково распределенными наблюдениями. Разные наблюдения друг от друга никак не зависели. Задача анализа временных рядов — всё ровно наоборот. Мы надеемся, что данные по прошлому, которые у нас есть, как-то связаны со значениями признаков в будущем. И чем сильнее они связаны, тем больше у нас есть информации о том, как наверное будет себя вести наш признак в будущем, тем лучше мы можем его в будущем предсказывать. Посмотрим еще раз не данные о реальной заработной плате в России. Уже на этом графике, на котором по горизонтальной оси отложено время, а по вертикальной — значение нашего признака, видно, что это ни в коем случае не простая выборка. Измерения здесь не являются независимыми и одинаково распределенными. То, что мы наблюдаем здесь, это разворачивающийся во времени сложно структурированный процесс, и выявив эту структуру, мы сможем учесть её в нашей прогнозирующей модели, и таким образом построить действительно хороший и точный прогноз. Лучше всего мы умеем решать задачу обучения с учителем, поэтому, конечно, хочется сразу задачу прогнозирования временного ряда к ней свести, поскольку этот процесс, разворачивающийся во времени, логично сгенерировать какие-то признаки, связанные со временем, и попробовать сделать какую-то, например, обычную регрессию нашего y на вот такие временные признаки. Ну можно взять, например, линейную функцию во времени, или квадратичную, и каким-то образом подобрать её параметры так, чтобы она лучше всего описывала данные. Это решение слишком простое, чтобы быть хорошим. Действительно, если мы посмотрим на остатки такой регрессии, мы увидим, что эти остатки далеко не похожи на случайный шум. В них остается еще большое количество структуры, которую мы в нашей регрессионной модели не учли. Чем больше особенностей данных, чем больше структуры в нашей модели учитывается, тем лучше предсказания, которые такая модель дает. Поэтому когда мы смотрим на эти остатки, у нас возникает надежда, что мы можем построить какую-то более сложную модель, которая будет лучше описывать имеющиеся у нас данные и заодно давать более точные прогнозы будущего. Вот именно этим мы в течение этого урока и будем заниматься. Давайте для начала введем неформально несколько компонент, которыми очень часто можно описать поведение временных рядов. Первый из них называется трендом. Тренд — это плавное долгосрочное изменение уровня ряда, то есть это какое-то изменение среднего уровня, которое мы можем охарактеризовать, если мы достаточно долго ряд наблюдаем. Еще одна компонента — это сезонность. Сезонностью называется циклические изменения уровня ряда с постоянным фиксированным периодом. Например, в ряде со средней номинальной заработной платой, на которую мы только что смотрели, были очень хорошо выраженные сезонные колебания. Этот признак всегда принимал максимальные значения в декабре каждого года и минимальные в январе следующего года. И в целом, профиль изменений внутри года всегда оставался более-менее постоянным. Еще во временных рядах бывают циклы. Циклом называется изменение уровня ряда с переменным периодом. Очень часто они встречаются в рядах, связанных с какими-нибудь продажами, и объясняются они и циклическими изменениями экономической активности. В экономике выделяют циклы длиной 4—5 лет, 7—11 лет, 45—50 лет и так далее. То есть большое количество таких вот циклов, и они отражаются на разных рядах, связанных с экономической активностью. Еще одним примером такого ряда может служить активность солнечная. Известно, что солнечная активность, которую можно, например, измерить количеством солнечных пятен за день, плавно меняется с периодом, который составляет несколько лет и этот период сам по себе тоже во времени меняется. Значение ряда может определяться как этими тремя компонентами, так и большим количеством других признаков. Некоторые из этих признаков можно явно учесть, другие могут быть слишком слабыми или их может быть совершенно невозможно измерить, и в таком случае, просто удобно считать, что данные содержат какой-то случайный шум. Вот эту последнюю, случайную компоненту ряда, которую спрогнозировать невозможно, мы будем называть ошибкой. Давайте посмотрим на несколько примеров рядов. Перед вами количество контрактов за день в сокровищнице США. В этом ряде достаточно хорошо выраженный понижающийся тренд, который по крайней мере на этом участке, можно описать линейной функцией. Ни циклов, ни сезонности, на этом участке нет, ну по крайней мере, мы не можем утверждать, что они есть, глядя на эти данные. То есть всё, что по крайней мере, не имея никакой дополнительной информации, нельзя описать вот этим трендом, по всей видимости представляет собой ошибку. А здесь перед вами суммарный объем электричества, производимого в Австралии за каждый месяц на протяжении нескольких лет. В этом ряде также очень хорошо выраженный повышающийся в данном случае тренд, но кроме того, в нем есть еще годовая сезонность. Значения признака совершают колебания, минимум которых, всегда приходится на зиму, а максимум — на середину лета. Неудивительно, потому что зимой потребность в электричестве меньше всего — это самый теплый сезон в Австралии. Следующий ряд — это суммарное количество продаж жилой недвижимости в миллионах квадратных метров в США, тоже по месяцам за несколько лет. В этом ряде мы видим сочетание двух основных компонент. Во-первых, это годовая сезонность, минимум всегда приходится на зиму, а максимум на середину лета. Во-вторых, это циклы. Это те самые циклы, связанные с циклическими изменениями среднего уровня экономической активности. В данном случае, период этих циклов составляет примерно 7—9 лет. Вот судя по этим данным. А здесь перед вами ежедневные изменения индекса Доу-Джонса. Глядя на этот ряд, сложно сказать, есть ли в нем вообще какая-то систематическая компонента. В нем явно нет никакого тренда, ни сезонности, ни циклов. По всей видимости, этот ряд представляет собой что-то похожее на случайную ошибку. Но даже такие ряды, оказывается, можно как-то прогнозировать. Итак, в этом видео мы познакомились с временными рядами и узнали, из чего они состоят. А также формально поставили задачу прогнозирования временных рядов, которые мы на протяжении урока будем дальше решать. В следующем видео мы познакомимся с понятием автокорреляции.