Соответственно, мы доказали, что в модели y_i = β₁ + β₂ x_i + β_3 z_i + ε_i. Если я хочу проверить гипотезу о том, что все регрессоры, ни один из них не оказывает влияния на y, то есть гипотезу о том, что β₂ = 0, β_3 = 0 то я могу сделать это с помощью f-статистики. Я могу поделить, для этого достаточно оценить всего одну регрессию данную, в ней взять ESS поделить на (k - 1), а в знаменателе RSS поделить на (n- k) и эта случайная величина при верной H_0 будет иметь F-распределение с (k - 1) и (n - k) степенями свободы. Если f-наблюдаемое будет больше, чем f-критическое, то H_0 отвергается. И гипотеза о незначимости регрессии тем самым будет отвергнута. И рассмотрим теперь конкретный пример с числами. На примере рассмотрим проверку гипотезы о незначимости регрессии. Исследователь оценил зависимость заработной платы от количества лет обучения, 0,6 помножить на количество лет обучения плюс 0.157 помножить на опыт работы. И исследователь хочет проверить гипотезу о том, что все включенные им факторы абсолютно бесполезны. То есть он хочет проверить гипотезу H_0 о том, что одновременно коэффициент истинный β при количестве лет обучения равен нулю и коэффициент β при опыте работы также равен нулю против альтернативной гипотезы о том, что хотя бы один из коэффициентов β при переменной «количество лет обучения» или β при переменной «опыт работы» не равен нулю. Для проверки гипотез выбирается какой-нибудь уровень значимости. Давайте выберем 5 %. И теперь мы можем протестировать эту гипотезу. Еще также известно, что R²в этой регрессии равен 0.09 — коэффициент детерминации. И регрессия оценивалась по 3.294 наблюдениям. Приступим, у нас есть общий вид F-статистики, предназначенной для проверки гипотезы о нескольких линейных ограничениях. Общий вид статистики следующий: RSS ограниченный (restricted) минус RSS (unrestricted), деленное на количество ограничений, деленное на RSS в неограниченной модели на (n- k unrestricted). При проверке гипотезы о незначимости регрессии, эту статистику можно упростить до вида ESS деленное на (k - 1), потому что у нас (k - 1) ограничение три коэффициента и две проверяемых, два проверяемых уравнения, делить на RSS делить на (n - k) для данного конкретного частного случая H_0. Но у нас тут ESS нет в этой задаче и RSS нет, а есть только коэффициент детерминации и поэтому чтобы решить, нам нужно немножко вспомнить, что такое коэффициент детерминации. Коэффициент детерминации — это ESS деленное на TSS. А еще мы знаем, что RSS плюс ESS равняется общей сумме квадратов TSS. Если мы поделим на TSS каждое слагаемое в этой части, то мы получим следующую формулу, что RSS делить на TSS плюс ESS делить на TSS равняется единице. Вот эта величина — это по определению R², стало быть, чтобы это равенство выполнялось, то эта величина — это единичка минус R². И хотя, ESS и RSS мы не знаем, их соотношение мы можем легко найти. Для этого, мы поделим числитель и знаменатель на TSS. Получим ESS делить на TSS на (k - 1). А здесь получим RSS на TSS на (n - k). И в силу существующих соотношений между суммами квадратов, мы получаем, что в числителе у нас R²делить на (k - 1), а в знаменателе у нас 1 минус R²деленное на (n - k). В нашем конкретном случае, мы получаем, что это 0.09 делить на (3 - 1) а здесь 0.91 делить на (3.294 - 3). Если мы выполним эти действия, то мы получим 165 примерно. Это наблюдаемое значение F-статистики, f-наблюдаемое. У нас есть теорема, которая говорит, что при верной H_0 при верной H_0 наша F-статистика имеет F-распределение с (k - 1), (n - k) степенями свободы в данном случае — это F-распределение с 2.3291 степенью свободы. Вообще говоря, типичный график функций плотности для f-статистики вот такой вот, но это особый случай, когда в числителе две степени свободы и поэтому график нашей F-статистики имеет вид примерно вот такой вот. Это f-график функции плотности f-статистики с 2.3291 степенью свободы. Есть тут некое F-критическое, поскольку я хочу, чтобы вероятность ошибки первого рода составляла 5 %, то я откладываю 5 % в хвостик с одной стороны, а от нуля до f-критического я получаю площадь 95 %. Соответственно, F-критическое можно найти либо по таблицам, либо с помощью R, это квантиль F-распределения порядка 0.95, степени свободы один по числителю равны двум, степени свободы по знаменателю равны 3291. Если я дам такую команду в R, то я получу, что F-критическое равно примерно тройке. Соответственно, F-критическое равно тройке, а F-наблюдаемое равно 165. Вот оно F-наблюдаемое. F-наблюдаемое слишком велико, то есть это говорит о том, что R² слишком большой для статистической значимости, хотя на самом деле, он всего 1/10, но с точки зрения проверки значимости гипотезы — он слишком большой. Здесь у меня H_0 отвергается и здесь у меня H_0 не отвергается. Таким образом, наблюдаемая статистика 165 попала в область, где H_0 отвергается и мы приходим к выводу, что гипотеза H_0 отвергается. Это означает, что хотя бы один из коэффициентов значим или мы просто говорим регрессия в целом значима. То есть есть среди включенных нами переменных те, которые влияют как-то, статистически связаны с заработной платой. Таким образом, в нашем случае, регрессия оказалась значима.