Мы знаем, что пропуск переменных, влияющих на игрек, приводит к очень страшным последствиям. И если у нас есть какая-то группа переменных, которые мы думаем включать или не включать, мы можем запросто проверить гипотезу с помощью F-теста. То есть, взяв разницу RSS restricted минус RSS unrestrected, поделить на RSS unrestrected, мы можем свободно проверить гипотезу о том, надо включать эти переменные или нет. Гораздо более интересной является гипотеза о том — а вот у меня каких-то переменных нет. А может быть я их, как раз-то может быть их и надо было включить, а у меня их нет. Как проверить гипотезу о том, что не пропустил ли я чего-нибудь важное, за чем у меня нет наблюдений. Если у меня есть наблюдения, я делаю F-тест, считаю разницу RSS, делю на RSS unrestrected, на соответствующие константы и проверяю гипотезу — надо было мне включать эти переменные или не надо. А может быть мне надо включить те переменные, данных по которым у меня нет. И вот тест Рамсея — это такая изящная попытка, успешная попытка проверить гипотезу о том, надо ли мне было включать те переменные, которых у меня на самом деле нет. Итак, текст Рамсея, нулевая гипотеза у него состоит в том, что yi = β1 + β2 хi + β3 zi + εi, то есть я включил ровно те переменные, которые и надо было бы включить в оценку регрессии. Альтернативная гипотеза теста Рамсея состоит в том, что я пропустил и не включил некоторый набор регрессоров, который на самом деле было включить надо. Как проводится тест Рамсея? На первом шаге теста Рамсея оценивается исходная модель, и из нее получаются прогнозы yi с крышкой. На втором шаге оценивается вспомогательная регрессия, то есть строится регрессия yi на исходные переменные и на степени прогнозов из регрессии на первом шаге. То есть туда включаются yi с крышкой в квадрате, yi с крышкой в кубе. Ну, несколько первых степеней включаются. Скажем, вторая, третья, всего p степеней со второй и до p + первой степени включаются. Дальше считается обычная F-статистика, проверяющая гипотезу о равенстве всех коэффициентов перед вот этими искусственными переменными y с крышкой во второй степени, y с крышкой в третьей степени. Гипотеза о равенстве нулю всех коэффициентов перед этими новыми переменными. И проверяется стандартным F-тестом гипотеза о том, что эти переменные γ1, γ2, γ3, ..., γp равны нулю. В чем идея теста? Если мы пропустили какую-то переменную, то, наверное, эта переменная останется в y с крышкой. И, соответственно, мы с помощью y с крышкой будем заменять эту самую пропущенную переменную. То есть y с крышкой в квадрате, y с крышкой в кубе — это будет какой-то заменитель пропущенной переменной. Если на самом деле пропущенных переменных нет, то значение yi с крышкой не будет содержать в себе информацию о пропущенных переменных, ну и стало быть тогда γ1, γ2, γ3 будут равняться нулю. Пример на тест Рамсея. Предположим, что исследователь оценил зависимость заработной платы от количества лет обучения и от опыта работы. И он хочет проверить гипотезу, что пропущенных регрессоров, пропущенных объясняющих переменных нету. То есть он хочет проверить гипотезу H0 о том, что в модели нет пропущенных переменных. Против H альтернативной о том, что есть пропущенные переменные. Ну то есть, если бы у него были эти самые переменные, которые, он подозревает, что влияют на заработную плату, он бы, конечно, их включил в модель и провел бы обычный F-тест. Но у него просто нет, других переменных, данных нет, поэтому он должен выкрутиться, и для этого он использует тест Рамсея. Тест Рамсея. В тесте Рамсея строится вспомогательная регрессия. Вспомогательная регрессия, где заработная плата с крышечкой равняется минус 3,3, оказалась равна, плюс 0,95 помножить на количество лет обучения, плюс 0,25 на опыт работы, и дальше он на первом шаге, оценив исходную модель, а на втором шаге оценивая вспомогательную модель, он включил в модель предсказанные значения y с крышкой из первой модели. То есть оценив первую модель, он получил y с крышкой и вставил их во вспомогательную регрессию, получил минус 0,264 на y с крышкой в квадрате i-тая плюс 0,024 на yi с крышкой в кубе. В основной регрессии R-квадрат оказался равен 0,91. И количество наблюдений 3294. Во вспомогательной регрессии R-квадрат равен 0,091 и во вспомогательной регрессии R-квадрат равен 0,095 и количество наблюдений такое же — n = 3294. И нам надо на уровне значимости α = 5 % проверить гипотезу о том, что в первой модели нет пропущенных переменных. Как нам это сделать? Что говорит тест Рамсея? Тест Рамсея основан на следующей идее, что если, действительно переменных нет, то включение чего бы то ни было в уравнение, будет приводить к оценкам, близким к нулю, и соответственно, можно проверить с помощью обычной F-статистики. А ежели какие-то переменные на самом деле пропущены, то, скорей всего, эти пропущенные переменные, они хоть как-то связаны с включенными переменными, и, соответственно, они как-то будут связаны с y с крышкой. И, соответственно, включив y с крышкой в квадрате, y с крышкой в кубе, мы получим коэффициенты, которые не равны нулю. Поэтому проверка гипотезы о том, что в модели нет пропущенных переменных, у нас превращается конкретно в гипотезу о том, что β при y с крышкой в квадрате равен нулю, и о том, что β при y с крышкой в кубе равен нулю. То есть мы получаем обычный F-тест, только мы включили не отсутствующие у нас в данных переменные, а мы включили y с крышкой в квадрате, y с крышкой в кубе. Почему? Потому что в нем есть отчасти информация о пропущенных, отсутствующих у нас в данных переменных. И альтернативная гипотеза о том, что хотя бы один из коэффициентов не равен нулю. H-альтернативная: о том, что хотя бы один,- хотя бы один из коэффициентов не равен нулю. Соответственно, эта модель у нас ограниченная выходит, restricted. Эта модель неограниченная, в ней не предполагается равенство нулю коэффициентов. И я считаю обычную F-статистику. Это RSS restricted минус RSS unrestricted, деленное на количество ограничений, в данном случае — два, деленное на RSS unrestricted на n 3294, минус количество переменных оцениваемых коэффициентов в неограниченной модели. Раз, два, три, четыре, пять. Минус пять. Замечаем, что RSS у нас нет. Опять у нас есть R-квадрат, поэтому мы применим тот же самый трюк. Мы поделим на TSS, TSS одинаковый. TSS restricted и TSS unrestricted — это одно и то же, это сумма yi минус y средняя в квадрате. Поделим все здесь на TSS. Получим: равняется RSS restricted на TSS, минус RSS unrestricted на TSS, деленное на 2, деленное на RSS unrestricted на TSS, деленное на 3289. Ну и дальше мы вспоминаем снова факт, что RSS плюс ESS равняется TSS, поэтому RSS деленное на TSS плюс ESS, деленное на TSS равняется единичке. Это величина называется R-квадрат, поэтому эта единичка — минус R-квадрат. В нашем случае мы получаем: единичка минус R-квадрат restricted, минус единичка минус R-квадрат unrestricted, деленное на 2. А тут единичка минус R-квадрат unrestricted, деленное на 3289. Поскольку R-квадрат у нас даны, то мы получаем 0,095 минус 0,091, деленное на 2, делить на 0,0... unrestricted R- квадрат... на единичка минус 0,095, деленное на 3289, и мы получаем, что это примерно равно 7,3. При верной H0, при H0 наша F-статистика имеет F-распределение с 2,3289 степеней свободы. Соответственно, график ее плотности выглядит примерно вот так вот. Это F-критическое. По таблице находим или с помощью компьютера, что F-критическое — это квантильная функция F-распределения порядка 0,95 со степенями свободы по числителю 2, со степенями свободы по знаменателю 3289. Если мы вводим такую команду, мы получаем, что F-критическое равно 3. Значит здесь площадь 0,95, здесь — 0,05. Наша F-наблюдаемая, F-наблюдаемая равно 7,3, F-критическая делит наши области возможных значений наблюдаемого F-статистики на ту часть, где H0 отвергается. Слишком большие значения F-статистики говорят о слишком большой разнице между RSS restricted и RSS unrestricted, и говорят о том, что ограничения не выполняются. Здесь у нас H0 не отвергается. В нашем конкретном случае F-наблюдаемая попала куда-то сюда, 7,3. Соответственно, в нашем случае F-наблюдаемая больше F-критического. Мы делаем вывод, что H0 отвергается, в нашем случае H0 — это о том, что в модели нет пропущенных переменных. Значит мы приходим к выводу, что есть пропущенные переменные.