[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Тема следующего урока — основы статистического вывода. И начнем мы с рассмотрения вопроса, что такое статистическая гипотеза и что такое статистическая значимость. На экране вы видите модель исследования, представленную в виде блок-схемы. Любое исследование начинается с содержательной гипотезы, мы об этом говорили, которая адресована генеральной совокупности. Из генеральной совокупности мы формируем выборку, которая репрезентативна генеральной совокупности. И в соответствии с операционализацией понятий производим измерение. В результате первичного анализа данных мы вычисляем статистики, частоты, средние значения или корреляции. И в отношении полученных результатов применяем методы статистического вывода. Именно методы статистического вывода позволяют нам убедиться в том, что полученные результаты неслучайны, и в этом случае мы можем распространить полученный результат на генеральную совокупность. Теперь рассмотрим гипотезы: содержательные и статистические. Рассмотрим на последовательности статистической проверки. Исследования начинают с содержательной гипотезы как утверждения о связи двух явлений в генеральной совокупности. В результате операционализации понятий и последующего выборочного исследования связь эта выражается в терминах описательных статистик: средних значений, корреляций, частот и так далее. Статистическая гипотеза — это утверждение о связи параметров в генеральной совокупности. При этом основная, или нулевая, статистическая гипотеза — это всегда утверждение об отсутствии связи в терминах параметров генеральной совокупности. Вы видите соответствующие формулировки на экране. H0 — это нулевая гипотеза, утверждает, скажем, что среднее значение 1 − среднее значение 2 = 0, то есть средние значения в генеральной совокупности не различаются. То, что имеются в виду параметры генеральной совокупности, обозначается черточкой вверху соответствующего обозначения. Или второй вариант нулевой гипотезы: если мы вычислили коэффициент корреляции, предположим, и изучаем связь между двумя явлениями при помощи коэффициента корреляции, то нулевая гипотеза будет утверждением, что коэффициент корреляции в генеральной совокупности равен нулю. Это примеры статистических гипотез. Обратим внимание на то, что статистическая гипотеза всегда по смыслу противоположна содержательной. Если содержательная гипотеза — это всегда утверждение о наличии связи в генеральной совокупности, то нулевая гипотеза — это всегда утверждение о том, что связи в генеральной совокупности нет. Почему это так, мы увидим далее. И далее определяется p-уровень значимости, или вероятности получения такого выборочного эмпирического результата на выборке данной численности, если нулевая гипотеза генеральной совокупности верна. Ну и на основе p-уровня значимости принимается или отклоняется нулевая гипотеза. Соответственно, чем меньше вероятность получения такого выборочного результата в случае, если нулевая гипотеза генеральной совокупности верна, тем больше у нас оснований эту нулевую гипотезу отклонить. И наоборот, если p-уровень значимости больше, то есть вероятность получения такого результата, такого выборочного результата из генеральной совокупности, в которой нулевая гипотеза верна, тем меньше у нас оснований отклонить нулевую гипотезу. И попробуйте ответить на вопрос: к чему стремится исследователь? Отклонить нулевую гипотезу или не отклонять нулевую гипотезу? Ответ прост, конечно: поскольку нулевая гипотеза противоположна содержательной гипотезе, то чем решительнее исследователь отклоняет нулевую гипотезу, тем весомее аргумент в пользу содержательной гипотезы. Как определяется p-уровень значимости? Рассмотрим. Рассмотрим на примере. Предположим, исследователь решил проверить состоятельность тестовой нормы IQ = 100, полученной пару десятилетий назад. Естественно, что у исследователя возникают сомнения в том, что эта статистическая норма сохранилась и до сих пор. Для проверки этой гипотезы он берет выборку в 100 человек, репрезентативную в генеральной совокупности, и измеряет интеллект. Далее вычисляет среднее значение интеллекта и стандартное отклонение. Предположим, что на выборке в 100 человек среднее значение оказалось равным 103, стандартное отклонение — 15. Как будет выглядеть статистическая гипотеза, вы видите на экране. Нулевая гипотеза: среднее значение в генеральной совокупности IQ − 100 = 0. [БЕЗ_ЗВУКА] Предположим теперь, что выборки по 100 человек многократно извлекались из генеральной совокупности, для которой верна нулевая гипотеза. И каждый раз вычисляется среднее значение. Как будет выглядеть распределение частот для этих средних? Понятное дело, что чаще всего будут встречаться значения среднего, близкие к 100. Но изредка будут появляться значения, и существенно отличающиеся от 100. На что может быть похоже это распределение? Конечно, на нормальное распределение. Вот центральная предельная теорема в прикладной статистике гласит, что распределение средних значений для выборок одной и той же и достаточно большой численности N, извлекаемых из генеральной совокупности, является нормальным. И заранее известно его среднее значение и стандартное отклонение для переменной x. Это одно из теоретических распределений, заранее известных для случая, когда нулевая гипотеза верна. Именно подобные распределения применяются для определения p-уровня значимости. В соответствии с центральной предельной теоремой среднее значение выборочных средних равно среднему значению переменной, по которой вычисляются эти средние, как вы видите на экране. А стандартное отклонение этого нормального распределения равно стандартному отклонению переменной, деленной на √N. Вот эта величина стандартного отклонения еще называется стандартная ошибка среднего. Итак, теоретическое распределение в данном случае — это нормальное распределение. Ну и напомним, что такое нормальное распределение и как мы его применяли, скажем, для интерпретации тестовых показателей. Используя его, мы можем определить вероятность получения того или иного отклонения от нуля. Например, вероятность случайного получения отклонения от нуля не менее 2Z составляет примерно 0,05. А точно 0,05 находятся за пределами диапазона ±1,96σ. Вернемся к нашей задаче определения состояния тестовой нормы IQ = 100. На экране вы видите формулировку нулевой гипотезы. Теоретическое распределение, как мы выяснили, это нормальное распределение со средним, равным 100, и стандартным отклонением, равным стандартным отклонениям IQ, деленным на √N, то есть стандартной ошибке среднего. Вычислим эти значения. Таким образом, эмпирический результат у нас какой? Для выборки в 100 человек среднее значение IQ = 103, стандартное отклонение равно 15, и переходим к теоретическому нормальному распределению. z вычисляется по формуле z преобразования. Подставляем имеющиеся значения, 103 − 100 / (15/√100), в результате получаем 2. Итак, что такое p-уровень и как он определяется? p-уровень значимости — это вероятность случайного получения такого или большего отклонения от того, что утверждает нулевая гипотеза. В данном случае, как видите на схеме, p-уровень значимости = 1 − площадь под кривой в диапазоне от −2 до +2, то есть 1 − 0,9544. И p-уровень значимости = 0,046. Это достаточно малая вероятность случайного получения такого эмпирического результата, если нулевая гипотеза верна. Достаточно малый, чтобы отклонить эту нулевую гипотезу. Таким образом, p-уровень значимости — это вероятность случайного получения такого или более неожиданного отклонения от того, что утверждает нулевая гипотеза. Синонимы — статистическая значимость, сокращенно Знч. в компьютерных программах, или в английском языке significant level, сокращенно Sig. в компьютерных программах. И определимся, как связаны p-уровень значимости и доверие к содержательной гипотезе. Чем p-уровень меньше, тем доверие к содержательной гипотезе... Больше или меньше? Конечно, больше. Напротив, чем p-уровень больше, тем меньше у нас оснований отклонять нулевую гипотезу, и тем уровень доверия к содержательной гипотезе меньше. [БЕЗ_ЗВУКА]