Перейдём к оценке модели множественной регрессии и проверке гипотез о коэффициентах, и построению доверительных интервалов в R. Множественная регрессия. Проверка гипотез. Возьмём набор данных, с которым мы уже познакомились, — набор данных по швейцарским кантонам. Поместим этот набор данных в табличку h. Давайте ещё раз глянем на табличку h, что там находится. Там есть несколько переменных: по каждому швейцарскому кантону есть фертильность, — это, соответственно, количество детей до пяти лет делить на количество женщин до 50-ти и помножить на 1000; доля мужчин, занятых в сельском хозяйстве; и другие переменные, например, доля католического населения в кантоне. Ещё раз напомню, что всегда надо думать, а что это у нас за данные. И в данном случае, поскольку у нас набор данных, встроенный в R, то мы можем почитать о нём более подробно, нажав help(swiss), и посмотрев, что это за данные, более подробно. Итак, мы оценим модель, в которой данные берутся из набора h, и мы будем предполагать, что фертильность, Fertility, зависит, тильда, от доли католического населения в данном кантоне, от показателя, насколько это регион сельскохозяйственный, и, скажем, от Examination. Нажимаем Ctrl+Enter, и у нас оценилась модель. Теперь мы можем посмотреть отчёт об этой модели, и на этот раз, после второй лекции, для нас в этом отчёте практически не осталось белых пятен. Давайте внимательно посмотрим, что здесь выведено. В начале просто продублирована формула, тут ничего интересного. Дальше, следующая строчка — это остатки от модели, то есть насколько спрогнозированная фертильность не была похожа на ту фертильность, которая в данных. То есть минимальная разница составила минус 26, максимальная 18, медиана 1.2, то есть это показывает разброс ошибок прогнозов. Следующая табличка, стандартная табличка, которую выводит более-менее в таком виде большинство статистических пакетов. Первый столбик — это оценки коэффициентов. Соответственно, наша модель — это то, что прогноз фертильности равен 90, плюс 0.04 умножить на долю католического населения, минус 0.09 умножить на долю мужчин, занятых в сельском хозяйстве, минус 1.07 умножить на Examination. Следующий столбик — это стандартные ошибки каждого коэффициента: 8.63 — это стандартная ошибка коэффициента β₁ с крышкой, а, скажем, 0.08 — это стандартная ошибка коэффициента β_3 с крышкой, коэффициент при доле сельскохозяйственного населения. Автоматом посчитаны t-статистики, которые проверяют гипотезы о незначимости каждого коэффициента. И здесь мы видим, что гипотеза о том, что β₁ равно нулю, отвергается; гипотеза о том, что β₂ равно нулю, не отвергается; гипотеза о том, что β_3 равно нулю, не отвергается; и гипотеза о том, что β_4 равно нулю, отвергается. Мы можем попросить компьютер вывести только табличку с оценками коэффициентов, стандартными ошибками, t-статистикой и значимостью: coeftest(model). И также можем легко получить доверительные интервалы: confint(model). Соответственно, вот мы видим, что доверительный интервал для коэффициента при доле католического населения от минус 0.04 до 0.12. Также можно попросить компьютер визуализировать нашу зависимость коэффициента модели: spj.lm(model). И посмотреть... Опечатался, sjp.lm. и у нас получается график, на котором визуально видны и оценки каждого коэффициента, и доверительные интервалы. И, соответственно, пунктиром проведена линия нуля, и, таким образом, мы визуально можем быстро проконтролировать значимость или незначимость каждого коэффициента. Вот эти два коэффициента незначимы, потому что доверительный интервал пересекает ноль, а вот этот коэффициент значим, потому что доверительный интервал не пересекает ноль, то есть оценка коэффициента существенно далеко от нуля лежит. Теперь перейдём к проверке линейных гипотез. Давайте проверим линейную гипотезу о том, что коэффициент зависимости при доле католического населения и при доле населения, занятого в сельском хозяйстве, одинаковые. Мы говорили о том, что есть несколько способов проверить эту гипотезу. Значит, давайте реализуем способ с построением вспомогательной регрессии. Проверка гипотезы о том, что β при католическом населении равно β при Agriculture. Как будет выглядеть вспомогательная регрессия, мы выводили в лекционной части. Соответственно, здесь мы её просто оценим: model вспомогательная равняется lm, данные берутся из таблички h, и зависимость имеет вид: Fertility от Catholic плюс... вот здесь нам надо включить переменную, которая является суммой переменной Catholic плюс Agriculture. Соответственно, мы покажем I (Catholic + Agriculture). Для удобства перенесём формулу на отдельную строчку, чтобы она была видна целиком, + Examination. Соответственно, если коэффициент при переменной Catholic равен нулю, то получается, что коэффициент при Catholic и Agriculture будет один и тот же. А значок I означает инструкцию для R, что надо трактовать Catholic + Agriculture — «плюс» в прямом смысле, не как введение новой переменной. Вот здесь плюс трактуется как несколько разных переменных: регрессор Catholic, регрессор Agriculture, регрессор Examination, а здесь внутри I «плюс» трактуется как банальный плюс, что надо сложить переменную Catholic с переменной Agriculture. Соответственно, оцениваем данную модель. Смотрим summary этой вспомогательной модели и получаем, что коэффициент при Cathilic незначим, p-value равно 0,15. Это говорит о том, что гипотеза о том, что коэффициенты при Catholic и Agriculture равны, не отвергается. И, к счастью, в R, конечно, есть более удобный способ, что R сам построит необходимые вспомогательные регрессии. Мы не будем вдаваться в детали этого способа на этой неделе, мы поговорим о деталях другого способа на следующей неделе, но тем не менее уже сейчас мы его можем реализовать: linearHypothesis с большой буквы для модели. А гипотеза у нас состоит в том, что коэффициент при Catholic минус коэффициент при Agriculture равняется нулю, то есть о том, что вот эти коэффициенты равны. И, соответственно, компьютер сам построит и вспомогательную регрессию и посчитает P-значение необходимой нам статистики. Соответственно, вот оно выходит точно таким же, 0.15, как и у нас руками при вспомогательной регрессии. Но здесь немножко другой способ, он считает не t-статистику, а её квадрат. И этот квадрат — это 2.05. Но тем не менее способ абсолютно эквивалентен. Таким образом, мы смогли проверить гипотезу о том, что два коэффициента истинных, неизвестных нам, равны, и эта гипотеза в нашем случае не отвергается.