В сегодняшней третьей лекции мы разберём два сюжета. Первый сюжет — это прогнозирование, как строить прогнозы и, более интересно, как строить доверительные интервалы для прогнозов. И второй сюжет — это как выбрать наилучшую модель. Вот если у меня есть две модели, как сравнить, как проверить гипотезу о том, верна ли первая модель или верна ли вторая модель. Итак, начнём с прогнозирования. У нас есть теоретическая модель на примере двух объясняющих переменных y_i = β₁ + β₂ x_i + β_3 z_i + ε_i, и, соответственно, оценив неизвестные коэффициенты β₁, β₂, β_3 методом наибольших квадратов, мы получаем оценённую регрессию, которая нам позволяет делать точечные прогнозы: ŷ i-тое равно β₁ с крышкой плюс β₂ с крышкой на x с β_3 с крышкой на z. Естественно, случайную составляющую ε мы спрогнозировать не можем, вместо неё стоит ноль. Но интересно не точечные прогнозы построить, а интересно построить доверительный интервал. Интересно, вот мы, хорошо спрогнозировали, что завтра будет минус 20 градусов: это от минус 21-го до минус 19-ти? Или это от минус 40-ка до нуля? То есть интересно потроить доверительный интервал, понять, насколько наш прогноз является точным. И вот здесь, чтобы говорить о ширине доверительного интервала, надо, вообще говоря, уточнить, а что мы, собственно, прогнозируем. Представим себе, что мы исследуем, например, что-то такое простое, скажем, зависимость веса человека от его характеристик: от, скажем, роста, пола и других характеристик. И, соответственно, что является неизвестным? Под неизвестным можно рассмотреть две величины. Допустим, я хочу построить прогноз для человека с заданным ростом, скажем, с ростом 170 сантиметров для мужчины. И тут возникает два варианта: я могу строить доверительный интервал для веса среднестатистического мужчины с ростом 170 сантиметров, а могу строить доверительный интервал, который называется предиктивный интервал, для конкретного мужчины с ростом в 170 сантиметров. В чём разница? Одно дело, если я возьму всех мужчин ростом 170 сантиметров, а, другое дело, вот сейчас в комнату войдёт мужчина ростом 170 сантиметров. И моя неуверенность в моём прогнозе роста в этих двух случаях разная. Почему? В первом случае средний рост всех мужчин, которые, вернее, средний вес всех мужчин, которые имеют рост 170 сантиметров — это какая-то константа. Вот эта вот одна константа — средний рост всех мужчин. Я его не знаю, и я имею выборку наблюдений, могу попытаться его спрогнозировать. Соответственно, ошибка прогноза, которая возникает, она связана только с тем, что у меня данные не по всем мужчинам Земли, а у меня данные только по небольшой случайной выборке. А вторая задача, если я пытаюсь спрогнозировать рост конкретного мужчины, который вот сейчас войдёт в комнату, и у него рост 170 сантиметров. Если я пытаюсь спрогнозировать его вес, то здесь источников ошибки два. Первый источник ошибки — это то, что я руководствовался при оценке модели выборкой, а второй источник ошибки состоит в том, что это не среднестатистический мужчина, рост которого равен константе, а это случайный мужчина ростом 170 сантиметров. Поэтому во втором случае два источника ошибки, и предиктивный интервал будет шире. Давайте посмотрим более детально. Если я прогнозирую условное среднее, то есть E от у при фиксированных регрессорах, то у меня возникает понятие ошибки прогнозирования условного среднего, то есть ŷ, прогноз, минус средний вес всех мужчин ростом 170 сантиметров, и дисперсия этой ошибки прогноза, ошибки прогнозирования среднего веса, — она при фиксированном регрессоре просто равна дисперсии прогноза, потому что при фиксированных регрессорах математическое ожидание условное — это константа, и, соответственно, её условная дисперсия равна нулю. И, соответственно, мы получаем, что нам надо просто, фактически, посчитать дисперсию β₁ с крышкой плюс β₂ с крышкой x_i плюс β_3 с крышкой z_i при фиксированных регрессорах. Однако если меня интересует дисперсия ошибки прогнозирования конкретного наблюдения, то конкретное наблюдение - это что такое? Это среднестатистическое плюс эта самая случайная составляющая ε. И у неё дисперсия, конечно, больше. Если я посчитаю дисперсию ошибки при прогнозировании конкретного наблюдения, у меня получится, что к дисперсии β₁ с крышкой плюс β₂ с крышкой x_i плюс β_3 с крышкой z_i условной прибавляется условная дисперсия ε_i. То есть дисперсия во втором случае больше и, стало быть, доверительный интервал, предиктивный интервал будет шире во втором случае. Надо опять же сказать, что σ², дисперсия прогноза, дисперсия ε — они неизвестны, и вместо них мы всегда сможем посчитать и будем использовать во всех расчётах не настоящие дисперсии, а оценки дисперсий: вместо Var будет стоять Var с крышкой. Мы будем использовать стандартные ошибки, то есть стандартная ошибка y_i с крышечкой — это корень из оценки дисперсии y_i с крышечкой при фиксированных иксах. Соответственно, подходить к построению доверительного интервала, как и в случае с доверительными интервалами для коэффициентов, можно двумя способами: либо нужно иметь большое количество наблюдений, либо нужно верить в нормальный закон распределения ε_i при фиксированных иксах. В одном случае мы будем получать, что ошибка, делённая на стандартную ошибку, стремится к нормальному распределению, в другом случае ошибка прогноза, делённая на стандартную ошибку, будет иметь t-распределение с n – k степенями свободы. И в соответствии с этим мы получим два подхода к подсчёту доверительного интервала: один при нормальном распределении, другой при большой выборке. Аналогично, абсолютно то же самое будет с предиктивным интервалом, то есть с интервалом для конкретного наблюдения. Можно работать в рамках предположения о большом количестве наблюдений, можно работать в рамках предположения о нормальном распределении ε_i. И сейчас мы на конкретном примере посмотрим, как строить доверительный интервал и как строить предиктивный интервал для отдельного наблюдения. Ещё раз о терминологии: когда говорят «доверительный интервал», обычно имеют в виду доверительный интервал для среднего значения зависимой переменной, когда говорят «предиктивный интервал», обычно имеют в виду интервал для значения зависимой переменной для конкретного наблюдения.