[МУЗЫКА] [МУЗЫКА] В этом видео мы поговорим о том, как можно построить доверительные интервалы к значениям параметров линейной регрессии и о том, как они устроены. Что такое доверительный интервал? Доверительный интервал — это такая область, в которую попадает значение параметра в 95 % повторных выборок, то есть на самом деле это не та зона, где лежит истинное значение параметра, это способ оценки положения истинного значения. Как они устроены? Мы с вами уже делали симуляцию, симулировали выборку из большой генеральной совокупности и пытались по этим выборкам оценивать значение параметров линейной регрессии. Так вот, если таких выборок сделать достаточно много, мы можем построить распределение для каждого из этих параметров, распределение для интерсепт и распределение для коэффициента угла наклона. И эти распределения выглядят, вы видите, достаточно колоколообразно. Если объем выборки у нас достаточно велик, если выполняются условия, при которых справедлива центральная предельная теорема, то распределение значений параметров будет приближаться к нормальному, поэтому мы можем использовать характеристики этого распределения для того, чтобы построить доверительный интервал — зону, куда попадает 95 % всех значений параметров в повторных выборках. Собственно, если выборочные оценки коэффициентов распределены нормально, то мы можем оценить их стандартное отклонение по вот такой формуле, и в этой формуле вы видите, есть σ — стандартное отклонение остатков. К сожалению, у нас нет доступа к генеральной совокупности, и мы не можем оценить значение σ напрямую. Мы его оцениваем при помощи дисперсии остатков, и из-за этого мы его оцениваем не точно, поэтому мы не можем на самом деле использовать нормальное распределение для того, чтобы построить доверительный интервал. Из-за этой неточности дополнительной, связанной с оценкой σ, нам приходится пользоваться t-распределением. Все доверительные интервалы устроены приблизительно единообразно. У нас есть значение параметра, в данном случае это значение коэффициента, любого коэффициента, плюс-минус какой-то предел погрешности. Предел погрешности рассчитывается в стандартных ошибках, и мы их берем в данном случае t раз — t, потому что используем t распределение. Доверительные интервалы можно построить не только к самим оценкам коэффициентов, но можно построить доверительную зону к регрессии в целом. Что это будет за зона? Это будет зона, в которую в 95 % повторных выборок попадет истинное положение линии регрессии, то есть в данном случае вероятность относится к тому, как ляжет доверительный интервал, а не к положению линии регрессии, оно зафиксировано. Посмотрите, на этом графике голубыми точками показаны точки из генеральной совокупности, а то, что попало в нашу выборку — это черные точки, и по ним мы построили линию регрессии и ее доверительный интервал. В данном случае у нас оказалась такая выборка, которая включает истинное значение регрессии, вот эту голубую линию, и так произойдет в 95 % всех повторных выборок, но, безусловно, будут такие выборки, которые не захватят истинное положение линии регрессии в генеральной совокупности. Доверительные интервалы к параметрам регрессии в R можно получить при помощи функции confint У этой функции один аргумент, мы должны туда передать название переменной, в которую мы сохранили модель. Функция confint выдаст нам нижнюю и верхнюю границы доверительных интервалов. Таким образом, если нас интересует зависимость величины IQ от размера мозга и коэффициент угла наклона, соответственно, мы получим информацию, что в 95 % повторных выборок из генеральной совокупности значение этого коэффициента будет лежать вот в таких пределах. Давайте попробуем построить доверительную зону регрессии при помощи пакета ggplot. Что нам понадобится? На самом деле первую часть этого графика мы уже строили. Нам нужен базовый слой, в котором мы говорим, откуда брать данные и что откладывать по осям. Точки — это исходные наблюдения. Следующий слой подписывает этикетки осей. Всё, что добавилось, это geom_smooth. Smooth — сглаживать. Это geom, который строит разного вида зависимости. В данном случае мы используем метод «Линейная модель». geom_smooth сразу построит нам и линию регрессии, и ее доверительную зону. По умолчанию geom_smooth строит доверительную зону для 95 %-го интервала. Но на самом деле мы можем построить доверительную зону для любых других интервалов, если изменим аргумент level, который задает уровень значимости α. Соответственно, если вот в эту узкую зону линия регрессии попадает в 95 % случаев при повторных выборках, то вот в эту более широкую зону она попадет уже в 99,9 % повторных выборок, то есть почти всегда. Естественно, это зона будет гораздо шире. На самом деле вы, наверное, спросили себя, хорошо ли лежит наша линия регрессии, потому что внезапно точки наблюдения не попадают в эту доверительную зону. Имеют ли право они так сделать? Об этом мы поговорим в следующем видео.