В этом видео мы дадим математическую постановку задачи множественной проверки гипотез. Для этого давайте сначала вспомним, как ставится задача проверки гипотез однократной. У нас есть некоторая выборка X объема n из неизвестного распределения F. И про это распределение F у нас есть некая гипотеза о том, что F ∈ ω. Мы будем эту гипотезу проверять против общей альтернативы, что F ∉ ω. Это делать будем мы с помощью статистики T, которая является просто какой-то функцией от выборки X. Для этой статистики мы знаем нулевое распределение, то есть распределение при справедливости нулевой гипотезы. По этому нулевому распределению, по его хвостам разным в зависимости от типа альтернативы мы вычисляет достигаемый уровень значимости, то есть вероятность получить такое или ещё более экстремальное значение статистики, как мы получили в эксперименте. Достигаемый уровень значимости сравнивается с порогом α — с уровнем значимости — типичное значение 0.05. Если достигаемый уровень значимости меньше, чем α, гипотеза отвергается в пользу альтернативы. При однократной проверке гипотезы у нас всегда есть вероятность, что мы совершим ошибку первого или второго рода. И больше всего нас пугает именно ошибка первого рода. Механизм проверки гипотез построен так, что вероятность ошибки первого рода, то есть вероятность ложно отвергнуть верную нулевую гипотезу, сверху ограничена достигаемым уровнем значимости α. Давайте теперь проверять много гипотез. Пусть у нас есть m выборок. Каждая своего размера из своего распределения, и каждой выборке соответствует своя гипотеза Hi о том, что Fi ∈ ωi. Каждую из гипотез мы будем проверять своей какой-то статистикой Ti. Для каждой из статистик мы знаем свое нулевое распределение. Таким образом, мы можем посчитать достигаемые уровни значимости всех гипотез. Это будут pi с индексами i от 1 до m. Введем следующее обозначение. Пусть M — это множество индексов от 1 до m. M0 — это множество индексов верных нулевых гипотез. Мощность этого множества пусть равна m0. Естественно, это множество нам неизвестно. Если бы мы знали, какие гипотезы верны, а какие не верны, мы бы гипотезы не проверяли. Пусть R — это множество индексов гипотез, которые мы отвергаем. И мощность этого множества пусть равна R. Тогда пересечение множеств R и M0 даёт нам гипотезы, которые мы неверно отвергли. Мощность этого множества мы будем обозначать V, и это есть число ошибок первого рода. По аналогии с однократной проверкой гипотез составим вот такую таблицу 2х2, в которой будет стоят количество верных и неверных, принятых и отвергнутых гипотез. Из всех величин, которые в этой таблице записаны, нам известно только m — общее количество гипотез. А единственный параметр, которым мы здесь можем управлять, — это R — количество гипотез, которые мы отвергаем. При этом величина, которая нас пугает больше всего, — это V — количество ошибок первого рода. Мы хотим совершать мало ошибок первого рода. Нам нужно, чтобы V было маленьким. Но при этом единственное, что мы можем делать, — это перераспределять по этой таблице наши гипотезы из 2-й строки в 1-ю. То есть, если мы хотим совершить мало ошибок первого рода, нам нужно отвергать меньше гипотез. Как именно это делать, мы обсудим в следующих видео.