В этом видео мы разберем, как устроен t-тест для проверки значимости коэффициентов линейной регрессии. Прежде чем пользоваться каким-то тестом, нужно сформулировать, как будут выглядеть гипотезы. И в нашем случае нулевая гипотеза будет выглядеть вот так. Значение коэффициента равно нулю. Что это значит? Нулевая гипотеза обычно описывает какой-то статус-кво состояний отсутствия различий. Когда нет связи между двумя величинами, то линии регрессии пройдет горизонтально. Если связь между двумя величинами есть, то линии регрессии пройдет под каким-то углом, угол под которым проходит линия регрессии описывает как раз коэффициент угла наклона. Соответственно, если мы проверим значимость коэффициента, то мы должны проверить равен ли он нулю. Отсюда формулировка нулевой гипотезы. Альтернативная гипотеза формулируется как двусторонняя. То есть, нам будет не важно направление различий, нам будет не важно каким образом именно наклонена регрессионная прямая. Мы просто констатируем факт, что коэффициент линейной регрессии в генеральной совокупности не равен нулю. Чтобы проверить эти гипотезы, мы можем использовать t-статистику. Все t-статистики устроены одинаково. У нас есть дробь и в числителе мы из наблюдаемого значения параметра, вычитаем ожидаемое при нулевой гипотезе и делим все это на стандартную ошибку. Это вам должно напоминать формулу стандартизации. Откуда берется наблюдаемое значение. Мы его определяем, когда подбирается уравнение линейной регрессии и определяем его по выборке. Ожидаемое значение берется из формулировки нулевой гипотезы. И наконец, мы должны все это поделить на стандартную ошибку. Стандартные ошибки, если вы вспомните формулу, они устроены таким образом, что там может использоваться либо дисперсия остатков, оцененная по генеральной совокупности, либо ее оценка выборочная. К генеральной совокупности у нас нет доступа и мы используем выборочную оценку. В результате, вот это отношение, собственно, t-статистика, она подчиняется t-распределению с числом степеней свободы, n минус число параметров, которые мы использовали для подбора линейной регрессии. Теперь давайте воспользуемся этой статистикой, чтобы протестировать значимость коэффициента угла наклона. Обычно нас интересует именно этот коэффициент. Почему? Потому что он описывает связь между откликом и переменной предиктором. Он описывает, на сколько единиц изменяется отклик, при изменении предиктора на одну единицу. То есть, у этого коэффициента есть четкий и понятный физический смысл. Почему мы редко пользуемся t-тестом, чтобы тестировать значимость свободного члена линейной регрессии. Потому что, его физический смысл для многих данных, совершенно какой-то странный получается. Вообще, intersept - это тот отрезок, который отсекает регрессионная прямая, но на оси Y. То есть, это значение отклика в тот момент, когда предиктор, принимает нулевое значение. То есть, для наших данных про IQ и размер мозга, это был бы IQ человека с нулевым размером мозга. Согласитесь, это довольно странная величина. Бывают данные, в которых интерсепт имеет понятный физический смысл, но это не наш случай. Поэтому, для того, чтобы проверить значимость связи, нам достаточно протестировать значимость коэффициента b1. Что мы делаем? Мы строим распределение Т-статистики для случаев, когда верна нулевая гипотеза, у Т-распределения, есть единственный параметр - это число степеней свободы. Для простой линейной регрессии - это объем выборки минус число параметров, в данном случае 2. У нас получается число степеней свободы равное 38. Теперь мы конкретное значение статистики, которые мы получаем для наших данных, мы сравниваем с этим распределением. Если оно попадает в один из хвостов, если оно является редким значением. Если в условиях, когда справедлива нулевая гипотеза получить более экстремальное значение t-статистики маленькая вероятность. Соответственно, здесь тоже должен быть второй такой хвостик, то мы будем отвергать нулевую гипотезу. Мы с ней не соглашаемся и считаем, что данные не поддерживают ее. Чтобы увидеть результаты тестов значимости коэффициентов в R, вам достаточно заглянуть в summary. Собственно, у вас будет таблица коэффициентов, где помимо оценок, будут приведены их стандартные ошибки. Значение t-статистики и уровень значимости для каждого теста. И мы видим, что в случае описания зависимости, величина IQ от размера мозга мы получили t-статистику равную двум целым и пятидесяти девяти сотым и получили очень маленький уровень значимости, меньше, чем 5%, которые мы обычно используем в качестве порога. Поэтому мы отвергаем нулевую гипотезу об отсутствии связи. Этот результат можно описать в тексте. Мы можем в тексте работы привести уравнение линейной регрессии и дописать к нему фразу примерно такую. Результаты IQ теста, значимо связаны с размером мозга на МРТ. Чтобы сослаться на результаты теста, нам нужно привести значение t- статистики. Очень хорошо, если вы приведете число степеней свободы, еще лучше, если вы приведите использованный уровень значимости, но это может быть отдельный текст, где сказано, но не обязательно это делать тут же. И вы можете привести значение уровня значимости. В некоторых случаях его еще принято в виде неравенства указывать, но это немножко менее информативно, потому что используется всегда какой-то жесткий порог. То есть, такая запись, она будет немножко хуже, чем точное указание величины уровня значимости. Но, к сожалению, сейчас еще этими результатами, даже, если мы их красиво сумели описать, пользоваться пока рано. Потому что, мы еще не знаем ответа на два вопроса. Мы не знаем хорошо ли наши регрессии описывает данные. И мы еще не знаем, мы провели тест, но мы не знаем, можем ли мы верить его результатам. Обо всем этом мы поговорим немножко позже, а сначала мы поговорим еще о другом способе - тестировать значимость зависимости.