[МУЗЫКА] [МУЗЫКА] Давайте подведем итоги этого модуля. Мы с вами познакомились, как при помощи данных можно отвечать на вопросы о генеральной совокупности. Эта процедура, которую мы рассмотрели, называется тестирование гипотез. Алгоритм тестирования гипотез выглядит всегда примерно одинаково — мы формулируем нулевую альтернативную гипотезу, которая описывает взаимоисключающие варианты развития событий. И потом переводим их на язык математики, чтобы можно было проверить, насколько то значение статистики, которое мы получаем, согласуется с ситуацией, когда верна нулевая гипотеза. Мы для этого должны уметь построить распределения статистики для ситуаций, когда нулевая гипотеза верна. У любого статистического теста есть какие-то свои условия применимости — это те допущения, которые мы делаем, когда разрабатываем статистику. Например, у t-тестов, у них у всех есть допущения, которые связаны с тем, что мы должны обеспечить, чтобы выполнялись условия справедливости центральной предельной теоремы, но вы помните, что там было еще одно дополнительное допущение, связанное с тем, что мы каким-то образом должны оценить стандартную ошибку разности. И в зависимости от этого бывают две разновидности t-тестов: бывает t-тест Стьюдента, где мы считаем, что в двух сравниваемых группах разброс значений примерно одинаков. И t-тест Уэлча, когда мы считаем, что он может быть разный в двух разных группах. К сожалению при тестировании гипотез часто возникают какие-нибудь ошибки. Если мы отвергли нулевую гипотезу, это не значит, что она не верна на самом деле. Или если мы не смогли ее отвергнуть, это не значит, что она верна и неверна альтернативная. К сожалению, такой информации нам обычный статистический тест дать не может. Но мы можем посчитать вероятность ошибок первого и второго рода. Вероятность ошибок, когда мы находим различия, где их нет на самом деле, и вероятность других ошибок, когда мы не можем найти различия там, где они есть. К сожалению, этим многообразие ошибок не исчерпывается. И в исследованиях с низкой мощностью, в исследованиях, в которых использованы маленькие объемы выборки, в исследованиях, в которых мы гонимся за очень маленькими эффектами, возникают ошибки совершенно другого сорта. Мы там легко можем перепутать знак эффекта или преувеличить существующий эффект по сравнению с тем, что наблюдается в генеральной совокупности. Ошибки первого рода имеют свойства накапливаться. И если для одного теста мы фиксируем вероятность ошибок первого рода на уровне 5 %, то если мы бесконтрольно сделаем много-много тестов, в группе сравнений вероятность сделать хоть одну ошибку первого рода, она увеличится. С этим нужно бороться, и люди придумали несколько вариантов коррекции. Есть процедуры двух семейств. Одна из них фиксирует вероятность ошибки первого рода для всей группы сравнений, для всех тестов, которые мы делаем вне зависимости от того, какой мы получили в них результат. Это family-wise error rate процедура. И другая группа процедур фиксирует вероятность ошибки первого рода для значимых сравнений, то есть фиксирует долю ошибок среди тех тестов, результаты которых мы признали значимыми. Эти процедуры, как правило, мягче. Это называется false discovery rate correction. Если вы делаете множество тестов, так получилось, вам нужно заранее выбрать, какой процедурой вы будете пользоваться. И придерживаться этого до самого конца. В этом курсе вы познакомились с основами R и теперь можете запросто использовать R, для того чтобы считать простые какие-то описательные статистики и строить простые графики. Мы с вами познакомились с тем, как можно описывать выборки при помощи точечных или интервальных оценок, а в последнем курсе мы научились тестировать гипотезы. Это умение нам пригодится еще много раз, особенно в следующих курсах этой серии, когда мы будем говорить об анализе зависимостей. До встречи в следующем курсе.