[БЕЗ ЗВУКА] В этом видео мы разберемся еще с одним семейством непараметрических критериев — перестановочные критерии. Давайте для начала вспомним, как работали критерии ранговые. Мы брали наши выборки, превращали их в ранги, затем делали какое-то дополнительное предположение и на основании этого предположения получали, что разные конфигурации этих рангов могли реализоваться с той же самой вероятностью. Мы перебирали все эти конфигурации и считали на каждой конфигурации значение статистики, таким образом оценивали для нашей статистики нулевое распределение. Что если в этом алгоритме мы пропустим первый пункт, не будем превращать наши наблюдения в ранги, а все остальное будем делать точно так же? Именно так работают перестановочные критерии. Одновыборочный перестановочный критерий проверяет нулевую гипотезу о том, что математическое ожидание случайной величины, из которой выборка взята, равно некоторой константе m0. Дополнительно делается предположение о том, что распределение исходной случайной величины относительно математического ожидания симметрично. Статистикой перестановочного критерия в одновыборочной задаче может служить сумма разностей i-того значения x и m0. Если нулевая гипотеза справедлива, каждый из объектов выборки мог с одинаковой вероятностью реализоваться слева и справа от математического ожидания. Поэтому мы будем перебирать все 2 в степени n знаков, которые могут стоять в выражении для нашей статистики перед разностью xi − m0. И вот на основании этого перебора мы и восстановим нулевое распределение нашей статистики. Давайте вспомним задачу анализа диаметра шайб: по выборке из 24 элементов мы пытаемся понять, соответствует ли средний диаметр шайбы стандарту — 10 миллиметров. Проверяем эту нулевую гипотезу мы против двухсторонней альтернативы о том, что средний диаметр стандарту не соответствует. Критерий знаковых рангов в нашем случае давал достигаемый уровень значимости 0.067, и вот так выглядело его нулевое распределение. Если мы используем перестановочный критерий, его нулевое распределение выглядит вот так. Значение статистики, которая в нашем эксперименте реализовалась — это 14.6. Для того чтобы посчитать достигаемый уровень значимости, мы суммируем высоты всех столбиков, начиная от 14.6 и больше, а также от −14.6 и меньше, поскольку альтернатива у нас двухсторонняя. В результате мы получаем достигаемый уровень значимости, равный примерно 0.1, то есть нулевая гипотеза все еще не отвергается. Обратите внимание, что достигаемый уровень значимости перестановочного критерия — это фактически доля перебираемых перестановок, на которых мы получаем такое же или еще более экстремальное значение статистики. Двухвыборочная задача со связанными выборками решается абсолютно таким же критерием — от двух связанных выборок мы переходим к одной выборке соответствующих попарных разностей. Проверяем нулевую гипотезу вида матожидание X1 − X2 = 0. И делаем это с помощью статистики, равной просто сумме построенных нами попарных разностей. Чтобы рассчитать нулевое распределение этой статистики, перебираем 2 в степени n знаков, которые могут возникать перед этими слагаемыми, получаем ровно то же самое. В задаче с оценкой эффективности транквилизатора у нас есть девять пациентов, для которых до и после приема мы измерили депрессивность по шкале Гамильтона. И мы проверяем нулевую гипотезу о том, что депрессивность не изменилась, против односторонней альтернативы о том, что транквилизатор подействовал, то есть депрессивность снизилась. Критерий знаковых рангов давал достигаемый уровень значимости 0.019, и вот так выглядело его нулевое распределение. Нулевое распределение перестановочного критерия изображено на нижнем графике. Значение статистики, которое реализуется в нашем эксперименте — 3.887. Суммируя высоты всех столбиков, начиная от 3.887 и направо, мы получаем достигаемый уровень значимости, равный 0.04. Нулевая гипотеза отвергается в пользу односторонней альтернативы. Перестановочный критерий для независимых выборок выглядит абсолютно так же, как критерий Манна-Уитни за исключением того, что мы не делаем ранговые преобразования. Он проверяет нулевую гипотезу о том, что распределение случайных величин, из которых взяты две независимые выборки, полностью совпадают, против альтернативы сдвига. Отличается только его статистика. Статистика — это просто разность выборочных средних в этих двух выборках. Нулевое распределение точно так же, как и для критерия Манна-Уитни, получается перебором всех C из n1 + n2 по n1 размещений нашей объединенной выборки по выборкам X1 и X2 объемов n1 и n2. В задаче с анализом связей между кофеином и респираторным обменом мы проверяли нулевую гипотезу о том, что среднее значение показателей респираторного обмена не отличается в двух группах: пациентов, которые приняли кофеин и приняли плацебо — против двухсторонней альтернативы о том, что что-то изменилось. Критерий Манна-Уитни давал достигаемый уровень значимости 0.052. Вот так выглядело его нулевое распределение. На нижнем графике здесь нулевое распределение перестановочного критерия, который мы только что рассмотрели. Значение статистики, которое в эксперименте реализуется — 6.33, оно соответствует достигаемому уровню значимости 0.0578. Нулевая гипотеза все еще не отвергается. У перестановочных критериев есть некоторые особенности, о которых очень важно помнить. Во-первых, статистику для перестановочных критериев можно выбирать по-разному. В некоторых случаях это приводит к одному и тому же достигаемому уровню значимости, то есть, по сути, ни на что не влияет. Например, в одновыборочной задаче, если вы проверяете гипотезу о том, что математическое ожидание равно нулю, вы можете использовать в качестве статистики перестановочного критерия сумму элементов выборки, а можете — выборочное среднее. Нулевые распределения этих двух статистик будут отличаться только сдвигом и масштабом, поэтому достигаемый уровень значимости, посчитанный по ним, будет одним и тем же. В других случаях, по-разному выбирая статистику для перестановочного критерия, вы можете получать разные достигаемые уровни значимости. Например, распределения нулевые у статистик — выборочное среднее и выборочное среднее, деленное на выборочную дисперсию, умноженную на корень из n, — отличаются не только сдвигом и масштабом, поэтому достигаемый уровень значимости у таких критериев с этими двумя вариантами статистик тоже будут разные. Поэтому при выборе статистики для перестановочного критерия важно думать о том, какие из свойств исходной случайной величины для вас наиболее важны. Если вам неинтересно нормировать на выборочную дисперсию, не нужно этого делать. Перестановочные критерии придумал Рональд Фишер еще в начале XX века, однако активно их использовать начали только с появлением и широким распространением компьютеров, потому что для вычисления нулевых распределений этих критериев можно использовать только перестановки. В отличие от ранговых критериев, никаких нормальных аппроксимаций для нулевого распределения в случае больших выборок не существует, поэтому единственный способ оценить нулевое распределение статистики — это перебрать много перестановок. Поэтому точно посчитать достигаемый уровень значимости перестановочного критерия на больших выборках достаточно сложно. Хорошая новость заключается в том, что мы можем его посчитать приближенно. Для этого нужно взять просто какое-то случайное подмножество всех возможных перестановок. При этом достигаемый уровень значимости будет оценен с точностью примерно √p * (1 − p), деленное на количество перестановок, которое вы берете. На практике, как правило, достаточно просто взять несколько тысяч перестановок, и вы уже получите достаточно точную аппроксимацию достигаемого уровня значимости. Итак, в этом видео мы узнали, как работают перестановочные критерии. Они действуют в абсолютно тех же самых предположениях, что и ранговые, но учитывают больше информации за счет того, что никакое понижающее количество информации в данных преобразованиях не используется. В следующем видео мы поговорим про связь между перестановочными критериями и бутстрепом.