Одна из часто возникающих задач, это сравнение двух каких-то выборок. Например, мы можем хотеть сравнить среднее число кликов по баннером с разным дизайном или какой-нибудь маркетолог может хотеть узнать, насколько отличается объем продаж товаров в разных вариантах упаковки, потому что может быть какие-то больше нравится покупателям, или допустим какой-нибудь медик может тестировать два разных вида снотворных, и проверять насколько лучше люди спят, в зависимости от того, какое снотворное они приняли. То есть фактически везде, где у вас есть задача сравнения двух групп, вы можете попробовать эту задачу решить при помощи t-статистики двухвыборочной. Давайте попробуем сконструировать как она выглядит? Прежде чем переходить к t-статистике, нам нужно сформулировать гипотезу. Нулевая гипотеза всегда звучит стандартно, она постулирует отсутствие различия, поэтому мы скажем, что среднее значение в группах, которые мы сравняем, не отличаются друг от друга. Что такое различие средних значений? Это разность. Если они не отличаются друг от друга, то это разность равна нулю. И альтернативная гипотеза, мы будем брать ее сразу двухстороннюю. Не будем рассматривать тот вариант, когда мы знаем о потенциальном изменении направления различий, нас будет интересовать просто разница. Если среднее значение в двух группах различаются, то разница между ними не будет равна нулю, то есть нас интересует разность двух средних значений. Все t-статистики выглядят единообразно, если их в общем виде записать. Мы всегда берем какую-то наблюдаемую величину, вычитаем из нее ожидаемое значение и делим на стандартную ошибку вот этой, вот наблюдаемой величины. Собственно, это формула вам должна очень напомнить формулу стандартизации. Там тоже мы из конкретного значения вычитаем среднее, то есть мат ожидание этой величины и делим на стандартную ошибку. Осталось сформулировать вот эти вот кусочки формулы, и у нас будет инструмент, чтобы проверять различие средних значений в двух группах. Теперь нам осталось подставить в общую формулу t-статистики нужные элементы. Например, что такое наблюдаемое значения разности? Это разность двух выборочных средних в тех выборках, которые у нас есть. Что такое ожидаемое значение разности? Это разность значений средний в генеральной совокупности, их мы обозначаем буквами μ. И в знаменателе должна стоять стандартная ошибка этой разности. Поскольку мы с вами уже сформулировали нулевую гипотезу, по нулевой гипотезе следует, что вот это разность, она будет равна нулю, поэтому t-статистику можно переписать вот таким образом. Довольно простая формула, в числителе - разность, в знаменателе - стандартная ошибка этой разности. Но так вышло, что стандартная ошибка разности может читаться по разному в зависимости от того, какие мы сделаем предположение в вначале. Мы можем считать что дисперсии в группах, которые мы изучаем - равны, и это будет один способ, и такой способ расчета стандартной ошибки разности, он вас приведет к модификации t-теста, который называется t-тест Стьюдента. Или мы можем сделать совсем другое предположение, мы можем предположить, что дисперсии в группах, которые мы изучаем, они разные, и это чаще всего более реалистично. И для такого случая стандартная ошибка разности будет считаться совершенно по другому. Такую модификацию t-теста называют t-тест Уэлча. Давайте посмотрим, как устроена стандартная ошибка разности средних в t-тесте Стьюдента. Предположим, что у нас есть две независимые выборки, и тогда среднее значение в этих выборках будут нормально распределены по центральной предельной теореме со средним значением μ, и со своим стандартным отклонением. Во второй выборке будет то же самое. Смотрите, здесь мы предполагаем, что дисперсии одинаково использованы, только объемы выборок могут отличаться. Но нас интересуют не просто две эти величины, нас интересует разность между ними. Если среднее значение нормально распределены, то разность между ними тоже будет нормально распределена со средним значением, которое будет равно разности средних значений, и с каким-то своим стандартным отклонением, которое есть корень из дисперсии разности средних значений. Дисперсию, которая стоит здесь, вернее стандартное отклонение, можно расписать вот таким вот образом. Дисперсия разности будет равна сумме двух дисперсий. Соответственно, на основе этой формулы для дисперсий можно оценить стандартное отклонение для разности. И отсюда следуют вот эта вот формула. К сожалению мы не знаем что такое сигма в генеральной совокупности, мы ее можем только оценить, используя стандартные отклонения в выборках, и в данном случае мы используем две выборки, мы используем два выборочных стандартных отклонений, чтобы оценить вот эту сигму по вот такой вот формуле. Это называется обобщенное стандартное отклонение S или S квадрат, это обобщенная дисперсия. В результате, из за того, что мы вынуждены вместо сигмы использовать ее оценку, у нас результирующая статистика подчиняется t-распределению с числом степеней свободы, которая равно сумме объемов выборок в наших группах минус два. Почему минус два? Потому что у нас в данном случае есть две независимые выборки, и в каждой из них n-1 значение независимо. Соответственно, две выборки n-1, n-1, получается сумма объёмов выборок минус 2. Но получившийся t-статистика, она не очень удобна, потому что мы сделали одно сильное предположение. И мы предположили, что на самом деле обе группы взяты из генеральной совокупности с одним и тем же разбросом, с одной и той же сигмой. Это не всегда реалистично, иногда лучше наоборот, подстраховаться и предположить, что разброс мог бы быть разным, но тогда нам нужно стандартную ошибку считать немного иначе. Тест Уэлча как раз использует стандартную ошибку, которая исходит из предположения, что в генеральных совокупностях, откуда мы взяли наши группы, разброс значений может быть устроен по разному. Формула стандартной ошибки разности в данном случае выводится по совершенно аналогичной логике, как мы это сделали на предыдущих слайда, но за удобство нужно платить. Мы только что избавились от одного ограничения, которое нам говорила, что разброс должен быть одинаков, он у нас теперь может быть разным, но нам придется за это заплатить тем, что получившаяся статистика уже не подчиняется t-распределению с тем числом степеней свободы, к которому мы привыкли. Нам придется вносить поправку. Она будет лишь приблизительно подчиняться тому t-распределению. Как выглядит это поправка? Когда поправка называется поправка Уэлча-Саттеруейта и она рассчитывается исходя из стандартных отклонений в каждой выборке и исходя из объемов выборки. Соответственно, число степеней свободы, рассчитанная с такой поправкой, оно будет какой-то дробной величиной, не пугайтесь. То есть может быть вы будете помнить про то, что число степеней свободы в двух выборочном t-тесте равно объему выборки общий минус 2 и встретите дробное значение. Так вот дробное значение будет вам намекать, что на самом деле был использован не t-тест Стьюдента, а t-тест Уэлча с числом степеней свободы, рассчитанным с поправкой Уэлча-Саттеруэйта. T-тест Уэлча, он ничем не хуже чем обычный t-тест Стьюдента, он немножко консервативнее. Даже если на самом деле в генеральных совокупностях, откуда мы брали выборки, разброс значений будет одинаков, и нам бы можно было пользоваться тестом Стьюдента, мы можем использовать и тест Уэлча в этом случае. Он все равно будет давать очень похожие значения, разве что немножко более консервативные. Теперь давайте разберемся с тем, как должны выглядеть условия применимости t-теста. Как вы уже догадались, они должны быть очень похожи на условия применимости центральной предельной теоремы, то есть точно также у нас должны быть независимы наблюдения друг от друга, и точно так же у нас либо должны быть достаточно большие объемы выборки, чтобы выборочные средние подчинялись нормальному распределению, либо нам нужно, чтобы исходное распределение в группах, которые мы сравниваем, были нормальными, если у нас объем выборки достаточно мал. Но одно дополнительное условие у нас добавляется. Помните, мы выводили формулу для стандартной ошибки разности, и там мы сделали предположение о том, что у нас есть две независимые группы, из которых мы делаем выборки. Группы эти независимы, это значит, что если мы получаем информацию о какой-то одной группе, она нам ничего не скажет о том, что должно быть, что можно получить в другой группе. Например, если мы сравниваем как будет действовать снотворное разных типов на людей, у нас должны быть разные люди, которые тестируют одно снотворное и другие люди, которые тестируют другое снотворное, чтобы эти выборки из людей были полностью независимы. Алгоритм тестирования гипотез в двухвыборочном t-тесте выглядит совершенно аналогичным образом тому, что мы видели для одновыборочного теста. Тоже вначале мы формулируем нулевую альтернативную гипотезу взаимоисключающие, потом наша задача - проверить условия применимости для этого конкретного теста, далее мы рассчитываем значение t-статистики по нашим выборочным данном, реальном, и строем распределение t-статистики для случая, когда верна нулевая гипотеза. По этому распределению мы будем выносить решение о том, насколько частое значение t-статистики мы получили, и мы оценим уровень значимости, вероятность получить более экстремальное значение статистики, чем получили мы в нашем тесте. И если этот уровень значимости будет мал, меньше 5%, то мы отвергнем нулевую гипотезу.