Чтобы выбрать между трех оцененных нами моделей, мы можем использовать F-тест. Соответственно, давайте с помощью F-теста сравним в каждом случае ограниченную модель и неограниченную. Давайте заметим, что в нашем случае, модель 0 является ограниченной по сравнению с моделью 1, потому что в ней меньше коэффициентов, она менее сложная. Модель 1 является ограниченной по сравнению с моделью 2. В модели 1 меньше коэффициентов, оценивается она проще, чем модель 2. Ну, и модель 0, конечно, является ограниченной по сравнению с моделью 2. В модели 0 меньше коэффициентов, она является частным случаем модели 2, если занулить коэффициенты при кирпичности дома и кирпичности, помноженной на логарифм общей площади. Соответственно, мы можем провести три теста, сравнивающих три модели. Данный тест также называется тестом «Вальда» — waldtest. Модель 0 против модели 1. И посмотрим на его результаты. Соответственно, здесь что компьютер посчитал. Компьютер посчитал вот эту самую F-статистику, которую мы считали руками, то есть RSS_R - RSS_UR делить на количество ограничений, в данном случае — одно, и делить на в знаменателе RSS unrestricted его степень свободы. Вот, соответственно, здесь автоматом посчитаны степени свободы в числителе один — одно ограничение, одна переменная отличает эти модели и в знаменателе 2037. Посчитано значение в статистике, 210 примерно, 209. И автоматом компьютер посчитал не F-критическое, поскольку F-критическое зависит от того уровня значимости, которое выбирает исследователь, а компьютер посчитал p-значение. Мы видим, что точное p-значение очень маленькое, около нуля. Это означает, что гипотезу H_0 надо отвергнуть, а гипотеза H_0 состоит в том, что у нас верна ограниченная модель в том, что ограничение выполнено. Соответственно, в нашем случае гипотеза H_0 о том, что верна модель 0 отвергается. Теперь мы можем сравнить с помощью того же f-теста модель 1 против модели 2. То есть мы выяснили, что гипотеза о том, что модель 0 отвергается, соответственно, мы сравниваем модель 1 и модель 2. Опять то же самое. Модели опять отличаются на один коэффициент, модель 1 от модели 2, поэтому степени свободы по числителю равны единичке, по знаменателю 2036. F-статистика на этот раз гораздо меньше — шесть с хвостиком, по сравнению 209. То есть мы уже видим, что разница на самом деле статистическая, но значимость между моделью 1 и моделью 2 уже не такая сильная, как между моделью 0 и моделью 1, но тем не менее p-value по-прежнему меньше 5 %, поэтому мы H_0 снова отвергаем. H_0 true model — это один - отвергается и, соответственно, отвергается в пользу модели 2. На всякий случай, можно же конечно сравнить и напрямую модель 0 с моделью 2. Здесь естественно мы прийдем к выводу, что модель 0 существенно хуже модели 2. Тут уже отличаются они на два коэффициента, поэтому степень свободы df (degrees of freedom) по числителю равна двум. И, соответственно, здесь у нас тоже получается, что модель true model 0 отвергается. Также мы можем проиллюстрировать, построить графики с линиями регрессии, даже в принципе не оценивая сами регрессии. Давайте возьмем базовый график. Базовый график по горизонтали мы отложим логарифм общей площади, по вертикали отложим логарифм цены квартиры. Это базовый график, давайте его назовем gg0. И теперь мы к этому базовому графику gg0 добавим, например, то, что… добавим сглаживающую линию stat smooth и укажем метод сглаживания. Существует много разных методов оценки кривых, но давайте укажем метод, в нашем случае линейной модели, метод равняется lm. Соответственно, мы на графике нарисовали прямую, как зависит в среднем логарифм цены от логарифма общей площади. Также мы можем немножко усовершенствовать наш график и добавить, например, деление на отдельные квадратики, в зависимости от того, находится ли квартира в пешей доступности от метро. А также мы можем еще изменить наш график и добавить сюда раскраску, в зависимости от того… раскраску точек в зависимости от того, находится ли наша квартира в кирпичном доме или нет. Давайте посмотрим на этот график. В модели, которую мы оценивали, мы никак не учитывали, находится ли квартира в пешей доступности от метро, а вот здесь на графиках видно очень интересный эффект, что если квартира не в пешей доступности от метро, walk равно 0, тогда зависимость для кирпичных и не кирпичных квартир, она практически одинаковая. Вот эти прямые, они совпадают. А вот если квартира в пешей доступности от метро, то уже мы видим разную зависимость для кирпичных и не кирпичных домов.