К сожалению, в процессе тестирования гипотез, мы не можем получить ответ на вопрос верна ли на самом деле нулевая гипотеза или верна альтернативная. Более того, при тестировании гипотез, мы неизменно совершаем какой-то процент ошибочных решений. Как это может выглядеть. Представьте себе, что есть какой-то человек и этот человек проходит тест на рак. Нулевая гипотеза будет звучать так, что этот человек здоров. Если мы ее отвергнем ошибочно, то есть он на самом деле здоров, а мы ему скажем, что он болен, то этот человек будет мучиться, страдать, волноваться, пока не сделает новый тест и не выяснит, что он на самом деле здоров. Здоровье его все равно немножко ухудшится. Что будет, если мы ошибочно примем нулевую гипотезу, то есть мы больному человеку скажем, что он на самом деле здоров. Это значит, что он не получит вовремя лечения и, таким образом, вероятность выздороветь у него будет гораздо ниже. Это тоже плохо. Любой вариант будет плох. Или другая совсем ситуация. У нас есть какой-то человек знакомый, допустим, или незнакомый, и его обвиняют в совершении какого-нибудь преступления. Может быть даже пустякового преступления, но обвиняют. Нулевая гипотеза как будет звучать. У нас есть презумпция невиновности - этот человек не виновен. Если мы ошибочно отвергнем эту гипотезу - это значит, что мы признаем невиновного виновным. Это плохо, потому что ему придется сидеть в тюрьме и он там научится плохому, а может даже и вообще помрет. Так нельзя делать. Но, если мы ошибочно примем нулевую гипотезу, окажется, что этот человек на самом деле виновен, а мы его отпустим. У нас, конечно, есть некоторая свобода действий. Может быть человек совершит еще раз какое-нибудь преступление, если оно было не серьезное - это не страшно и его потом поймают. Но, если это было страшное преступление, то нам лучше так тоже не делать, не совершать таких ошибок. То есть, вы видите: страшно и отвергнуть нулевую гипотезу ошибочно и страшно ошибочно ее принять. Хотелось бы знать, каковы вероятности этих ошибок. Собственно, при тестировании гипотез мы можем совершать ошибки двух сортов и в статистике они называются почти специально так, чтобы нам их легко было перепутать. Они называются ошибки первого рода и ошибки второго рода. Ошибка первого рода - это когда мы нашли различия там, где их нет, когда мы ошибочно отвергли справедливую нулевую гипотезу, то есть, признали здорового - больным или там, невиновного - виновным. Это страшная ошибка, которую, на самом деле, все фиксируют в первую очередь. И ошибки второго рода, чуть менее страшные, но от этого не менее опасные - это не найти различий там, где они есть на самом деле. То есть, признать больного человека - здоровым или признать виновного - невиновным. Если мы знаем распределение статистики, при помощи которой мы делаем тест, мы можем точно вычислить вероятность ошибок и первого, и второго рода. Собственно, вы уже знаете, как делается одна из этих вещей, потому что есть распределение статистики, при условии, что нулевая гипотеза верна и вы с этим распределением уже сталкивались. Помните, что мы по нему считали уровни значимости наших статистик. Так вот, для ситуации, когда верна альтернативная гипотеза, мы тоже можем построить свое распределение. Вот оно тут пунктиром показано, немножко со сдвигом. И, если мы будем считать площади под кривыми этих распределений, мы сможем определить вероятности ошибок первого и второго рода. Уровень значимости, с которым вы уже знакомы - это вероятность совершить ошибку первого рода. Потому что, смотрите, он считается под кривой - для случая, когда справедлива нулевая гипотеза, то есть, для этого случая. И, если вдруг мы получили такую выборку, что значение статистики попадает в этот участок, то нам придется отвергнуть нулевую гипотезу. Даже если она верна. То есть, мы совершим ошибку. То есть, площади под хвостиками этой кривой - это и будет вероятность совершить ошибку первого рода. Она обозначается - альфа и вероятности этих ошибок довольно просто зафиксировать. Мы просто можем выбрать более жёсткий порог. Не пять процентов, а, например, один процент или еще меньше, в зависимости от того, что мы хотим. У этого есть побочные эффекты, но о них позже. Что же у нас с вероятностью ошибок второго рода. Она обозначается - бета. Раз это ошибка второго рода, то мы должны ее считать под кривой распределения, для ситуации, когда справедлива альтернативная гипотеза. Мы, в том случае, когда нулевая гипотеза не верна, мы не смогли ее отвергнуть. Это значит мы получили значение этой статистики, которая лежит где-то в этом диапазоне. Соответственно, вероятность такой ситуации описывается этой площадью под сегментом кривой для альтернативного распределения. На самом деле, часто про эту ошибку забывают, но хороший тон фиксировать ее на уровне 20%. То есть, вероятность не найти различия там, где они есть, должна быть не ниже 20%. Ошибки первого рода и второго рода взаимосвязаны. Вы видите, если мы уменьшаем уровень значимости альфа, как вот на этой картинке. На самом деле возрастает вероятность ошибки второго рода. То есть, это палка о двух концах. Вы от одних ошибок можете спастись, но тем самым вы подставляетесь под ошибки второго рода. Это нужно делать очень аккуратно. Помимо вероятности ошибок первого и второго рода, мы можем посчитать еще вероятность найти различия там, где они есть. То есть, принять правильное решение, если различие есть. Эта величина называется - мощность теста и она вычисляется, как единица минус бета. Это площадь под кривой для альтернативной гипотезы и она состоит из двух участков. Один вам бросается в глаза сейчас на слайде, но не надо забывать про то, что есть еще этот кусочек небольшой. То есть, это площадь под кривой для альтернативной гипотезы, но уже за пороговым значением статистики. Хорошо, когда мощность теста не меньше 0,8. То есть, в 80%, мы обнаруживаем различия, если они есть на самом деле мощность теста зависит от нескольких вещей. Во-первых, она зависит от величины наблюдаемого эффекта. Если эффект будет более сильным, это значит, что это расстояние будет больше, то тогда и мощность теста смотрите на сколько сильно она возросла. А вот этот хвост, он вообще становится ничтожен. Соответственно, сильные эффекты гораздо легче обнаружить. Мощность теста зависит не только от величины эффекта или выбранного уровня значимости. Она будет зависеть также и от объема выборки. Чем больше ваша выборка, тем мощнее ваш тест, тем больше вероятность того, что вы найдете различия там, где они есть. Соответственно, здесь пунктиром на всех этих трех графиках, отмечена желаемая мощность теста - 80%. Если объем выборки мал, то вы не можете достичь этой мощности и только, если объем выборки несколько десятков наблюдений - мощность теста становится больше 80%. Это для двухвыборочного t-теста. Естественно, для других статистик, там будут совершенно другие графики. Если вы ищете какой-то сильный эффект, вам будет достаточно каких-то единиц наблюдений. Но в погоне за слабым эффектом, вам потребуются выборки, возможно, даже в несколько тысяч наблюдений. И, на самом деле, может быть не стоит гоняться за слабыми эффектами, потому что жизнь коротка. Такую выборку очень сложно обработать. Кроме того, в слабых эффектах есть еще одна опасность Если ваше исследование недостаточно мощно, для того, чтобы выявить эффект такой величины, то возникает риск ошибок совершенно принципиально других типов: s-ошибок и m-ошибок. Что это значит. S-ошибка - это когда мы путаем знак, связанный с эффектом. То есть, путаем направления различий. Посмотрите, здесь показаны два распределения для нулевой и для альтернативной гипотезы и расстояния между их вершинами, истинная величина эффекта - совсем не велико. В результате эти два распределения, они очень сильно накладываются друг на друга. И здесь, когда мы считаем мощность теста, становится важен не только вот этот вот правый хвост, становится важен еще вот этот маленький хвост. Сам по себе эффект, у нас связан со сдвигом вправо. То есть, если мы получаем значение статистики, которая попадает в этот правый хвост, мы правильно определяем знак этого эффекта. Мы видим, что увеличивается у нас значение статистики. Если у нас случайно оказалась такая выборка, что мы получили значение статистики из левого хвоста, мы тоже будем вынуждены отвергнуть нулевую гипотезу об отсутствии различий, найти различия. Но знак этих различий мы перепутаем. Распределения сдвинуты вправо, а мы будем думать, что они сдвинуты влево - это называется ошибка знака. И еще одна ошибка, которая может возникать - это то, что мы можем переоценить величину эффекта сильно. Смотрите, реальная величина эффекта - это маленькая красная полоска. Если мы отвергаем нулевую гипотезу - это значит, что мы получили значение статистики из одного из этих хвостов. Из какого бы мы хвоста его не получили, положим даже из правильного, это будет значить, что тот эффект, который мы наблюдали в выборке - это вот эта вот оранжевая полоска. Мы не можем зарегистрировать эффект меньшей величины, когда у нас этот эффект маленький. Соответственно, вы видите насколько реально зарегистрированный эффект будет выше, чем тот, который на самом деле существует. Соответственно, эти ошибки - ошибки m - это коэффициент при увеличении. То есть, если вы гонитесь за маленькими эффектами, используете маленькие выборки, очень высока вероятность того, что вы примите ошибочные решения не только о направлении эффекта, но вы раздуете как-бы этот эффект, будете считать, что вы нашли более сильные различия, чем они есть на самом деле. То есть - это очень сильно исказит результаты вашего исследования. Бойтесь исследований с маленькой мощностью, старайтесь считать анализ мощности до того, как начали работать.