[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Здравствуйте, уважаемые слушатели. На этом уроке мы рассмотрим методы анализа частот. Речь идет об анализе номинальных данных. Среди методов анализа частот выделяются всего лишь два метода. Первый метод — это анализ классификации, сравнение эмпирического и теоретического распределений, как правило, равномерного. И анализ таблиц сопряженности — сравнение двух или более распределений частот. Примеры анализа классификации — это гипотезы, например, какие вузы реже, а какие чаще предпочитаются выпускниками, или зависит ли посещаемость занятий от дня недели, или предпочитаются ли некоторые хобби чаще, чем другие. Анализ таблиц сопряженности — это сравнение двух и более двух распределений частот, гипотезы о распределении частот двух номинальных переменных, то есть гипотезы о связи двух оснований классификации. Примеры: отличаются ли юноши и девушки по предпочитаемым хобби, или зависит ли предпочтение одного из пяти кандидатов на выборах от пола избирателя и так далее. Сначала рассмотрим с вами анализ распределения частот. Сравнение эмпирического и теоретического распределения, как правило, равномерного. Для проверки подобных гипотез используется критерий Хи-квадрат Пирсона, который еще называется Хи-квадрат согласия, критерий согласия. Полезно знать этот критерий, поскольку он очень прост и не требует наличия таблицы исходных данных. Достаточно знать только распределение частот. Рассмотрим пример. С целью предсказания результатов выборов исследовалось предпочтение потенциальными избирателями пяти политических лидеров. По результатам опроса репрезентативной выборки из 120 респондентов была составлена таблица распределения их предпочтений. Вы ее видите на экране. Можно ли утверждать, что в совокупности всех потенциальных избирателей наблюдаются существенные различия в соотношении предпочтений пяти политических лидеров? Иначе говоря, отличается ли распределение предпочтений потенциальных избирателей от равномерного распределения? Отметим, что в отношении данной группы респондентов ответ очевиден. Но вопрос при статистической проверке формулируется иначе: можно ли распространить этот вывод на генеральную совокупность, из которой извлечена данная выборка? Таким образом, нулевая гипотеза распределения в генеральной совокупности является равномерной, а наблюдаемые различия случайны. В этом случае применяется критерий согласия Хи-квадрат, или критерий критерий согласия Хи-квадрат Пирсона. Формулу вы видите на экране, формула достаточно проста. В этой формуле fэ — это эмпирическая частота в ячейке, fт — это теоретическая, или ожидаемая, частота в ячейке, и подсчет производится для каждой из ячеек. В данном случае критерий Хи-квадрат принимает значение 13,33. Критическое значение для α = 0,05 равно 9,49. Таким образом, эмпирическое значение превышает критическое для 0,05, и таким образом, мы делаем вывод, что p-уровень значимости менее 0,05. Это дает нам основания сделать вывод о том, что данное распределение предпочтений избирателей статистически достоверно отличается от равномерного. Рассмотрим, что влияет на p-уровень значимости в данном случае. Всего лишь два обстоятельства. Это так называемая величина эффекта, то есть насколько различаются частоты, и второе, конечно же, это объем выборки. Чем больше объем выборки, тем при прочих равных условиях статистическая значимость выше, то есть p-уровень значимости ниже. Рассмотрим оформление результатов. По результатам проверки гипотезы указываются три числа: Хи-квадрат, число степеней свободы (в данном случае четыре) и, конечно, p-уровень значимости. Вывод по результатам исследования: распределение предпочтений потенциальных избирателей в отношении кандидатов статистически достоверно не равномерно. Или статистически достоверно отличается от равномерного. Если бы p-уровень значимости превышал α, то вывод был бы такой: распределение предпочтений статистически недостоверно отличается от равномерного. То есть нет оснований говорить, что оно не равномерно, и кто-то предпочитается чаще, кто-то реже. На экране вы видите результаты проверки гипотезы в программе SPSS. Видите, что представлена таблица. В таблице наблюдаемые частоты, ожидаемые частоты и остаток, то есть разность того и другого. И вторая таблица — это статистические критерии, здесь самый главный результат — это значение Хи-квадрат, число степеней свободы, и, конечно, так называемая асимптотическая приблизительная значимость. Видим, что она равна 0,01, то есть статистически достоверный результат. А асимптотическая потому, что определяется по теоретическому распределению. Отдельным случаем является анализ распределения бинарной переменной, то есть анализ распределения, который имеет две градации. Рассмотрим пример. Из ста опрошенных по поводу отношения к введению моратория на смертную казнь 60 были за смертную казнь, а 40 против. Предполагается, что выборка репрезентативна генеральной совокупности. Можно ли утверждать на основании этого опроса, что в генеральной совокупности количество сторонников смертной казни превышает количество противников? Ну, что касается данной выборки, мы видим, что за — 60 человек, против — 40, и вывод очевиден. Однако, как обычно, при проверке статистических гипотез речь идет о том, воспроизводится ли данный результат в генеральной совокупности или различия являются случайными. В данном случае критерий Хи-квадрат в том виде, в котором мы его рассмотрели ранее, не годится. Применяется обычно критерий Хи-квадрат с поправкой на непрерывность. Поправка на непрерывность сводится к тому, что разность между эмпирической и теоретической частотой в ячейке уменьшается на 0,5. Формулу вы видите на экране. Надо отметить, что поправка на непрерывность является необходимой в этом случае, но она несколько преувеличивает величину ошибки второго рода. Более предпочтительным в данном случае является в данном случае применение более точного биномиального критерия. Теоретическое или ожидаемое распределение не обязательно может быть равномерным. Например, соотношение рождаемости мальчиков и девочек в какой-либо местности, в каком-то населенном пункте или городе или даже стране. Рассмотрим пример. Проводилось исследование, в котором сравнивалась частота рождения мальчиков и девочек в индийских семьях английского города, где подавляющую часть населения составляли выходцы из Америки. Средняя частота рождения мальчиков в Англии составляет 52 %. А в данном случае за период наблюдения из 20 родившихся людей мальчиков оказалось только пять. Можно ли на этом основании сделать вывод о том, что в индийских семьях этого города мальчики рождаются достоверно реже, чем в целом по Англии? На экране вы видите результат применения критерия Хи-квадрат к полученным данным. Как видите, в данном случае с поправкой на непрерывность применяется критерий, значение критерия равно 4,81. Это значение меньше эмпирического для α = 0,05, поэтому мы делаем вывод о том, что результат статистически достоверен. На экране вы видите результат применения биномиального критерия при помощи программы SPSS. Обращает на себя внимание, что в случае применения биномиального критерия мы получаем точное значение p-уровня значимости в отличие от критерия Хи-квадрат. Видим, что эта точная значимость заметно меньше, чем асимптотическая значимость, получаемая при помощи Хи-квадрат. То есть биномиальный критерий является более чувствительным в этом случае. Однако биномиальный критерий требует применения компьютерных программ. На самом деле, расчеты биномиального критерия могут быть произведены и в программе Excel. Как это сделать, вы видите на экране. [БЕЗ_ЗВУКА]