Итак, мы уже подобрали линейную модель, смогли записать ее уравнение, а теперь давайте более внимательно рассмотрим результаты. Это можно сделать при помощи функции summary. Мы с ней уже сталкивались в прошлом курсе, и вы помните, что на самом деле summary умеет читать квантили от вектора, он может показать нам файл number summary. На самом деле summary, это такая функция generic, по английски называется функция обертка, которая смотрит к какому классу относится ее аргумент и пытается найти метод, который подходит для этого класса. Если мы передадим функции summary линейную модель, то тогда она посмотрит к какому классу относится это линейная модель, потому что линейных моделей тоже бывает много разных, найдет подходящий метод и передаст эту модель дальше этому методу, который сделает с ней что-то, покажет нам результаты в человеко-читаемом виде. Собственно, давайте передадим нашу модель brain_model в функцию summary и нам сразу покажут в консоли, как мы модель создавали. В следующем разделе этих результатов будут написаны остатки от этой модели и некоторая информация об их распределении, мы будем внимательно изучать остатки от линейных моделей в следующем модуле этого курса. А сейчас пока давайте их оставим как есть. Последний раздел, это таблицы с коэффициентами линейной регрессии. Вот эти вот значения вы уже видели, это оценки коэффициентов intercept-а, и коэффициента угла наклона. Но, здесь добавилась некоторая информация. Здесь записаны стандартные ошибки этих коэффициентов, а вся правая часть таблицы связана косвенным образом с этими стандартными ошибками, потому что это тест о значимости коэффициентов. Откуда берутся стандартные ошибки? Давайте разберемся. И как они выглядят? Дело в том, что мы с вами при помощи линейной регрессии пытаемся описать зависимость, которая есть в генеральной совокупности используя данные о выборке. В генеральной совокупности, в зависимости, которые там существует, помимо нас и наших знаний о ней, есть параметры. Эти параметры обозначаются греческими буквами бета, бета нулевое, бета первое и остатки обозначаются эпсилон. Но мы работаем с выборкой, и нам не доступны эти значения параметров, мы их пытаемся оценить по выборке и получаем оценки коэффициентов, b нулевое, b первое и к каждому наблюдению можно посчитать величину остатка, то есть насколько от предсказанного значения отличается реальное значение наблюдения. В связи с тем, что мы работаем с выборкой, и выборка несовершенна, одна выборка может отличаться от другой и никогда выборка полностью не идентична генеральной совокупности, у нас возникает неопределенность, и эту неопределенность мы можем оценить, используя стандартные ошибки. По своей формуле можно посчитать стандартную ошибку для каждого из коэффициентов, а в качестве оценки стандартной ошибки остатков можно использовать корень из остаточной суммы квадратов. В данном случае мы имеем дело с выборкой из 20 молодых людей и 20 девушек примерно похожего социального положения, но они все не идентичны, они все отличаются друг от друга и они явно отличаются от той генеральной совокупности, на которую бы мы хотели экстраполировать наши результаты. А давайте попробуем смоделировать этот процесс немного в большем масштабе? Не с одной выборкой, как у нас в данных, а попробуем создать симулированную генеральную совокупность, в которой форма зависимости нам заранее известна и из этой генеральной совокупности попробуем брать выборки и смотреть как пройдёт линия регрессии. Поскольку мы сами создавали эту генеральную совокупность, нам точно известно, как пройдёт в ней регрессионная прямая, собственно, вот она. В этой генеральной совокупности тысячи объектов. Естественно, что они все немножко отличаются от того, что предсказывает регрессионная прямая, и разброс точек вокруг регрессионной прямой, описывается остатками, которые распределены нормально. Среднее значение их ноль, собственно, остатки у тех точек, которые будут лежать на линии регрессии, они будут равны нулю, а стандартное отклонение 20, оно описывает как раз разброс значений остатков. Что будет, если мы из этой генеральной совокупности попробуем взять выборку? И в этой выборке будет 40 объектов допустим. Точки, которые попали в выборку, они на графике отмечены черным цветом. А если мы по этой выборке построим линию регрессии, то она совершенно не будет совпадать с тем, что было в генеральной совокупности. Видите, это чёрная линия идёт немножко по другому, и значения коэффициентов мы получим другие, они даже довольно сильно отличаются. А если мы оценим разброс остатков, то окажется, что и разброс остатков немножко другой. Это все по тому, что мы взяли выборку и она не полностью отражает генеральную совокупность. Если мы этот процесс попробуем масштабировать, взять много много выборок. Давайте попробуем взять из этой генеральной совокупности 100 выборок одинакового объема по 40 наблюдений и для каждой выборки построим свою линию регрессии. Если мы их изобразим на одном графике, то вы увидите такой пучок из линий регрессий, которые как бы качаются вокруг одной точки. Что это за точка? Эта точка непростая, это точка с координатами X среднее, Y среднее. Почему происходят это качание? Если вы помните, линии регрессий описывается уравнением с двумя коэффициентами и каждый раз мы по выборке получаем оценку коэффициентов, которые немножко не совпадают с тем, что было в генеральной совокупности. Если у нас немножко не совпадают intercept, то линии регрессий будут лежать выше или ниже чем зависимость в генеральной совокупности, а если у нас немножко неправильно оценен коэффициент угла наклона, то линии регрессий будут качаться. Скорее всего это будет происходить одновременно, во множестве выборок вы увидите такое вот сложное движение. Эту информацию о выборочных оценках, коэффициентов, регрессии можно использовать в разных целях. Мы ее оцениваем при помощи стандартных ошибок, и стандартные ошибки нам нужны для, того чтобы строить доверительные интервалы к оценкам коэффициентов, мы можем построить доверительную зону для линии регрессии целиком, и конечно же мы можем протестировать значимость значений коэффициентов. Всеми этими применениями стандартных ошибок мы займемся в следующих видео.