Хочется отметить следующие особенности проверки
гипотез об отдельных коэффициентах.
Во-первых, это отвратительное название.
Во всех работах всегда пишут: «мы проверили
гипотезу о значимости коэффициента».
На самом деле — это гнусная ложь.
Проверяется гипотеза о незначимости коэффициента.
Просто есть такая устная традиция, она и в русском языке, и в английском.
Проверяется гипотеза о том, что коэффициент равен нулю,
то есть на самом деле о том, что он не значим.
Но очень часто пишут что: «мы проверили гипотезу о значимости коэффициента», хотя,
на самом деле, проверяется совершенно противоположная нулевая гипотеза.
То есть если H0 не отвергается, это говорит о том, что зависимости нет.
Вторая особенность, которую нужно отметить — это почему мы
говорим: «H0 не отвергается, а не скажем H0 принимается»?
Статистическое тестирование устроено так,
что фраза «H0 не отвергается» означает буквально следующее:
«недостаточно данных чтобы отвергнуть H0, данные не противоречат гипотезе H0».
Это, в частности, означает, что данные могут еще много чему не противоречить.
Они могут, в частности, не противоречить H0, их может быть просто мало.
Может быть, не противоречить и H-альтернативной, такое вполне бывает.
Поэтому здесь надо говорить аккуратно: «H0 не отвергается» — это означает,
что данные не противоречат гипотезе H0.
Следующая особенность, которую также необходимо осознавать
— это отличие значимости и существенности коэффициента.
Коэффициент может быть значим, но совершенно неважным, несущественным.
Например, если мы по большому количеству наблюдений обнаружили,
что зарплата мужчин и женщин отличается в месяц на 3 рубля,
то можно говорить о том, что никакой дискриминации нет, и,
хотя, отличие мы выявили, оно значимое, гипотеза о том,
что отличия нет, может отвергаться, но тем не менее, это отличие несущественное.
Да, отличие есть, но оно настолько мало.
Мы его, конечно, обнаружили статистически, но оно ни на какие практические выводы,
ни на какую политику в сфере труда влиять не будет.
То есть не надо путать значимость и существенность.
Значимость — это математический, некий статистический факт о том,
равен коэффициент нулю или не равен.
А существенность — это насколько он не равен нулю.
Может быть он, конечно, не равен нулю, но настолько мал,
что и этим отличием от нуля можно пренебречь.
Здесь нужно отметить, что на больших выборках,
когда у вас много-много-много-много наблюдений, то любое,
даже самое малейшее отличие, будет поймано регрессией.
В частности, на большом количестве наблюдений, как правило,
все коэффициенты становятся значимы, если очень-очень много наблюдений.
И возможна обратная ситуация.
Коэффициент может быть существенным,
то есть по величине он может быть очень сильным, скажем, так может выходить,
что по нескольким наблюдениям у вас там, всего мало наблюдений, там 20,
скажем, и коэффициент может быть большим по абсолютной величине,
но при этом, из-за того, что данных мало, то оценка обладает большой дисперсией,
и гипотеза о том, что на самом деле коэффициент равен нулю не отвергается,
хотя оценка β_j с крышкой очень большая, такое тоже бывает.
То есть надо осознавать, что значимость — это не то же самое,
что существенность или важность для нас коэффициента.
Значимость — это факт о том равен он нулю, точнее не факт, а это отвержение или
не отвержение гипотезы о том, что истинный коэффициент равен нулю или не равен нулю.
Чтобы как-то попытаться померить существенность коэффициента,
есть много способов.
Они неоднозначны, их довольно много, но, пожалуй,
самый простой — это способ посчитать стандартизированные коэффициенты.
Что такое стандартизированные коэффициенты?
Это попытка перевести все регрессоры,
все объясняющие переменные и объясняемую переменную в общие единицы измерения.
Вот иксы могут измеряться, скажем, опыт работы измеряется в годах,
заплата измеряется в рублях.
Соответственно, можно попытаться перевести все регрессоры,
все объясняющие переменные в одни универсальные единицы измерения.
То есть мы возьмем, из каждой переменой вычтем ее среднее
и поделим на стандартную ошибку этой самой переменной.
Сделаем эту операцию для объясняемой переменной и для
каждой объясняющей переменной.
И после этого мы оценим ту же самую модель, что и хотели,
но в этих стандартизированных переменных.
Мы получим, естественно, другие оценки коэффициентов.
Эти оценки коэффициентов называются стандартизированными.
И, соответственно, помимо того, что их можно будет сравнивать между собой,
помимо этого у нас еще получится некая мера существенности коэффициента.
И следующая небольшая особенность — это проблема множественных сравнений.
Если исследователь хочет проверить гипотезу о том, что какой-то коэффициент
β_{42} конкретно равен нулю, то способ с t-статистикой подходит.
Но, к сожалению, очень часто распространена такая порочная практика,
что исследователь берет, включает кучу, не задумываясь о теоретической модели,
включает кучу объясняющих переменных в свою модель и выбирает те из них,
которые по t-статистикам оказались значимы.
Это подход неправильный, поскольку как
только мы согласились на некую вероятность ошибки первого рода, например,
мы выбрали вероятность ошибки первого рода типичную в экономических приложениях 5%.
Соответственно, если мы возьмем просто 100 никак не связанных с y регрессоров,
то есть все коэффициенты β по настоящему равны нулю,
то в каждом случае вероятность обнаружить
ложно якобы имеющуюся зависимость, будет равна ошибке первого рода, то есть 5%.
То есть мы с вероятностью 5% увидим,
что первый коэффициент значим, с вероятностью 5% увидим,
что второй коэффициент значим, хотя, на самом деле, все истинные β равны нулю.
И получается, что из 100 регрессоров, в среднем,
100 умножаем на 5%, в среднем 5 коэффициентов должны быть значимы.
Хотя, на самом деле никакой связи нет.
Это надо иметь в виду и понимать, что политика: «я запустил регрессию на
кучу переменных и отобрал те, которые значимы» — это неправильный подход.
Помимо поверки гипотезы об отдельно взятом β,
не трудно модифицировать нашу статистику,
наш подход, чтобы проверять гипотезы о некой линейной комбинации или о
некоторой формуле, связывающей несколько коэффициентов.
Например, я могу желать проверить гипотезу о том,
что эффект воздействия двух переменных одинаковый.
То есть о том, что β₂ = β_3.
В этом случае я использую несколько модифицированную
t-статистику, она, соответственно, равна β₂ с крышкой минус β_3 с крышкой –
(β₂ – β_3) делить стандартную ошибку (β₂ с крышкой – β_3 с крышкой).
К счастью, выводы полостью аналогичны, то есть при большом количестве наблюдений эта
статистика будет распределена стандартно-нормально, при малом количестве
наблюдений и дополнительном предположении о нормальности ε,
эта статистика будет иметь t-распределение с (n – k) степенями свободы.
И помимо обобщения t-статистики, есть еще один способ.
Можно переформулировать всегда модель так, чтобы (β₂ – β_3) стало новым коэффициентом.
И сейчас мы рассмотрим пример, как можно проверить чуть более сложную гипотезу,
чем гипотеза об отдельно взятом коэффициенте.