Сейчас мы разберём пример теста Уайта.
Итак, предположим, исследователь оценил модель.
Он оценивал зависимость спроса на мороженое, q_i, то есть количество
купленного мороженого в киоске, от некоторых объясняющих переменных.
Ну, например, это была p_i, средняя цена мороженого в киоске,
плюс β3 умножить на a_i, на ассортимент, то есть количество разных видов мороженого,
которые продаются в i-том киоске, плюс β4 помножить на d_i,
d_i — это расстояние от киоска до ближайшей остановки общественного транспорта,
плюс случайная ошибка.
И вот исследователь оценил эту модель и хочет проверить,
а есть ли в модели гетероскедастичность.
То есть исследователь хочет протестировать H0 о том, что гетероскедастичности на
самом деле нет условной и есть условная гомоскедастичность, то есть хочет
проверить гипотезу, что условная дисперсия равна константе σ²,
против альтернативной гипотезы о том, что условная дисперсия
ε_i при фиксированных X не равна σ²,
то есть зависит от i.
Выбран какой-то уровень значимости.
Давайте выберем стандартные 5 %.
И, соответственно, исследователь хочет провести тест Уайта.
Для теста Уайта проводится некоторая вспомогательная регрессия,
помимо основной.
Проводится вспомогательная регрессия, и известно,
что в этой вспомогательной регрессии R² во
вспомогательной регрессии оказался равен 0,15.
И эта зависимость спроса на мороженое от средней цены мороженого в данном киоске,
количества разных видов мороженого и расстояния до ближайшей остановки —
эта зависимость оценивалась, эта регрессия строилась по 200 наблюдениям.
Вот у нас есть все данные, и мы можем провести тест Уайта.
Ну для начала нам, конечно, неплохо бы понять,
что это за вспомогательная регрессия.
Понятно, что мы, конечно, даже не будем её строить руками, а компьютер будет её
делать сам, но тем не менее понимать, что за вспомогательная регрессии, нужно.
Поэтому давайте поставим вспомогательный вопрос.
Помимо тестирования собственно гипотезы H0, давайте зададимся вопросом,
как выглядит вспомогательная регрессия.
Соответственно, во вспомогательной регрессии
нам нужны остатки от исходной модели.
То есть происходит на самом деле за кадром шаг 1 — оценивается исходная модель,
и мы получаем из исходной модели оценки ε_i с крышкой.
И на шаге 2 строится вспомогательная регрессия, а именно: остатки,
полученные после оценивания исходной модели, ε_i с крышкой в квадрате,
— мы строим их регрессию на исходные объясняющие переменные,
то есть α1 + α2p_i +
α3a_i + α4d_i,
это расстояние до ближайшей остановки, плюс квадраты исходных переменных.
То есть пошли дальше коэффициенты: α5 * p_i² + α6
* a_i² + α7 * d_i²
плюс — во вспомогательную регрессию, где мы пытаемся понять, а не зависит ли вдруг
от чего-нибудь разброс ε — сюда ещё добавляются попарные,
все попарные произведения всех объясняющих переменных исходной модели,
то есть + α8 * p_i
* a_i + α9
* p_i * d_i + α10
* a_i * d_i + какая-то своя ошибка.
Вот какая страшная модель с большим количеством коэффициентов оценивается на
втором шаге.
Но, к счастью, компьютеру всё равно что оценивать, всё оценивается быстро и легко.
И из этой вспомогательной регрессии, — вот в ней известно, что R² оказался
равен 0,15, — и мы хотим понять, много по-хорошему это или мало.
Если эта величина большая, то это говорит о том, что размер остатка,
то есть квадрат ε с крышкой, зависит от объясняющих
переменных и имеет место гетероскедастичность.
Мы в лекционной части говорили, что нам нужен тест Уайта, который устроен просто
по принципу n помножить на R² во вспомогательной регрессии на втором шаге.
В нашем случае мы получаем: 200 помножить на 0,15.
Получается 30.
И при верной H0, при H0 статистика
Уайта имеет хи-квадрат,
асимптотический хи-квадрат распределение, с количеством степеней свободы,
равным количеству параметров в этой вспомогательной регрессии минус 1.
Тут 10 параметров минус 1 — это, собственно,
сколько здесь осмысленных регрессоров.
Тут 9 регрессоров.
Соответственно, это хи-квадрат с 9 степенями свободы.
График функции плотности хи-квадрат с 9 степенями
свободы имеет примерно вот такой вот вид.
И есть некая хи-квадрат критическая.
Хи-квадрат критическую мы можем установить либо с помощью таблиц, либо с помощью R.
Давайте мы напишем команду, которая нам нужна.
Нам нужна квантиль хи-квадрат распределения.
Если мы хотим, чтобы здесь было 5 %, значит мы хотим,
чтобы слева от хи-квадрат критического было 95 % площади.
Соответственно, чтобы узнать хи-квадрат критическое, мы можем дать
следующую команду R: квантиль хи-квадрат распределения порядка 0,95.
И если выдать эту команду в R, то получится 16,9 примерно.
Значит, хи-квадрат критическое равно 16,9,
а наблюдаемое значение статистики Уайта оказалось рано 30.
Соответственно, у нас получается вывод, что значение статистики Уайта слишком
далеко от математического ожидания хи-квадрат распределения,
то есть оно вышло за хи-квадрат критическое.
Это говорит о том, что R-квадрат слишком большой.
Это говорит о том, что размер остатка, измеряемый как ε с крышкой в квадрате,
хорошо объясняется регрессорами,
чего в условиях гомоскедастичности не должно быть.
Значит, мы получаем вывод, что H0 о том, что у нас имеет место гомоскедастичность,
эта H0 отвергается в пользу H альтернативное о том,
что имеет место условная гетероскедастичность.
Соответственно, вот здесь можно уточнить.
Вот здесь у нас H0 не отвергается, а вот здесь вот
у нас H0 отвергается.