[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Итак, для анализа зависимости роста и веса школьников нами была построена линейная модель парной регрессии, параметры которой были значимы, и вся модель адекватна. Но если обратиться к теории, известно, что рост и вес связаны следующим образом. Существует такая характеристика, как индекс массы тела, которая определяется как отношение веса, взятого в килограммах, деленная на рост в метрах в квадрате. Соответственно, логично рассматривать не линейную зависимость веса от роста, а квадратическую. Если мы зависимую переменную «вес в килограммах» обозначим через y, а рост — это будет наша переменная x, соответственно, рост в квадрате — это будет либо величина x², либо ее можно обозначить x2, как мы сейчас это сделаем в программе, тогда мы можем исследовать зависимость такого вида, где зависимая переменная «вес» связана с ростом по такой формуле. В этом случае коэффициент b — это будет оценка среднего индекса массы тела для рассматриваемой группы. Давайте сейчас попробуем в пакете R для наших данных роста и веса школьников третьих-четвертых классов, то есть детей в возрасте девяти-десяти лет, построить парную модель регрессии, где фактор у нас стоит в квадрате и при этом, обратите внимание, что у нас отсутствует свободный член в модели. Итак, продолжим работу с тем же самым файлом, только теперь мы будем строить зависимость вот такого вида. Возьмем данные из нашей таблицы data, соответствующей весу, и обозначим эту переменную через y. x — это будет, соответственно, значение роста, деленное на 100, поскольку изначально в нашей таблице данные представлены в сантиметрах, мы переведем их в метры. И поскольку мы строим зависимость квадратическую, введем новую переменную x², которая будет соответствовать росту в квадрате. Сейчас у нас имеется два независимых объекта, они не были объединены в таблицу. То есть сейчас нам нужно построить модель линейную по параметрам, но не линейную по факторам. Если мы выберем новый фактор x2, то мы можем использовать ту же самую функцию linear model, в которой будем рассматривать зависимость y от x2. Эти переменные у нас не объединены в таблицу. Это отдельные объекты, соответственно, нам нет необходимости указывать аргумент data. Мы обращаемся к функции linear model и в качестве формулы указываем зависимость y от x². Создаем объект reg2 — это наша вторая регрессионная модель. И выводим информацию с полученными результатами. Также в начале у нас указывается формула, для каких объектов мы искали взаимосвязи, информация по остаткам, и далее основная часть с результатами регрессионного анализа. Мы получили две оценки параметров. Обратите внимание, что оценка параметра свободного члена у нас по умолчанию добавляется автоматически. То есть сейчас у нас стоит оценка параметра a плюс оценка параметра b, который стоит перед x². Дальше также следует значение среднеквадратических отклонений полученных оценок, значение statistics student и значение p-value для проверки гипотезы о незначимости соответствующего параметра. Для параметра b, который отвечает за влияние x², мы получили значение p-value очень-очень маленькое, существенно меньше, чем 0,05, что говорит о высокой значимости соответствующего коэффициента. А вот для свободного члена, несмотря на то, что он вообще-то отличается от нуля, тем не менее гипотеза о его статистической незначимости принимается. То есть мы принимаем гипотезу о том, что этот параметр равен нулю и из модели его можно исключить. Но просто так выбросить этот параметр, оставив этот коэффициент, мы не можем. Мы должны пересчитать нашу модель. Для этого мы должны задать новую формулу. Для того чтобы исключить в пакете R из регрессионной модели свободной член, мы можем в формуле указать либо плюс ноль, либо минус один. В этом случае будет оцениваться модель, учитывающая только влияние факторов, а оценка свободного члена рассчитываться не будет. Выполним это действие. Мы можем не создавать новый объект, так как предыдущий нам не будет нужен. Мы в ту же самую переменную reg2 заносим новые результаты регрессионной модели без свободного члена. Выводим полученные результаты. И что мы здесь видим? Формула, которая рассчитывалась теперь, это зависимая переменная y от x2 без свободного члена. Информация об остатках. А дальше результаты регрессионного анализа. В данном случае параметр b у нас получается 16,97, стандартная ошибка значения статистики student и вероятность p-value, которая существенно меньше, чем 0,05. Это говорит о высокой значимости полученного результата. Поскольку все параметры, а в данном случае он единственный, у нас значимые, мы можем посмотреть также на детерминацию нашей модели. И вот здесь обратите внимание: при исключении параметров из модели, коэффициент детерминации может стать только меньше. Но, дело в том, что при расчете регрессионных моделей без свободного члена коэффициент детерминации рассчитывается совершенно по другой формуле. Если для случая модели, содержащей свободный член, коэффициент детерминации рассчитывается по вот такой формуле, то в случае, когда у нас свободный член отсутствует, в рассматриваемых нами пакетах R, SPSS и Statistica коэффициент детерминации оценивается по формуле в предположении, что среднее равно нулю, даже если это не так. То есть коэффициент детерминации получается по такому соотношению. Поэтому, естественно, мы получили абсолютно другое значение, в данном случае намного больше, но не надо его сравнивать с тем результатом, который получался у нас выше. То есть эти две величины в данном случае несравнимы. В любом случае, построенная модель адекватна, и значение параметра равно примерно 17. Давайте теперь вернемся к информации об индексе массы тела и посмотрим, чему соответствуют полученные нами результаты. Если мы рассмотрим таблицу, содержащую информацию об индексе массы тела для детей, подростков и молодых людей в возрасте до 20 лет, выберем нашу возрастную группу, то есть школьники третьих-четвертых классов или дети возраста девяти-десяти лет, то среднему нормальному здоровому весу соответствует индекс, примерно равный 17. То есть это именно то, что мы только что с вами получили. Значение параметра в нашем случае было равно почти 17. Тем самым мы построили регрессионную модель, линейную по параметрам, квадратичную по фактору, которая определяет зависимость веса от роста. [МУЗЫКА] [МУЗЫКА]