[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Давайте посмотрим,
как сравнивать k групп, где k больше, чем 2, при помощи статистического пакета SPSS.
Здесь опять у нас есть параметрический и непараметрический вариант.
Параметрический вариант — это однофакторный дисперсионный анализ на
основе критерия Фишера, а непараметрический вариант — это
непараметрический дисперсионный анализ Краскела — Уоллиса.
Давайте посмотрим, что мы можем здесь на наших данных,
всё на тех же данных по поисковой выдаче сказать о межгрупповых сравнениях?
Мы уже говорили о том, что есть разница между тем, какое количество переходов на
сайт получают компании, имеющие и не имеющие аккаунты в социальных сетях.
Теперь давайте посмотрим,
зависит ли количество переходов на сайт компании от дня недели.
Точнее, мы не можем говорить о зависимости, мы можем говорить о том,
различается ли среднее количество переходов на сайт компании в зависимости
от дня недели.
Дней недели у нас семь, семь — это больше, чем два, следовательно,
тест Стьюдента нам не подходит.
Точнее, никакой двухвыборочный тест нам не подходит.
Он мог бы нам подойти, если бы нам нужно было сравнить два дня,
например, понедельник с пятницей или понедельник с воскресеньем.
Но если нам нужно сравнить все семь дней, то в таком случае нам нужен какой-то
другой тест, который не ограничен двумя выборками.
Здесь у нас опять же есть два варианта: тест Фишера и тест Краскела — Уоллиса.
Посмотрим на то, как выглядит выдача и как, собственно,
задавать однофакторный дисперсионный анализ.
Мы помним,
что на первом шаге мы должны проверять распределение признака на нормальность,
и мы уже знаем, что у нас количество переходов распределено ненормально.
Сейчас в учебных целях мы посмотрим на то,
как выглядит однофакторный дисперсионный анализ на основе критериев Фишера,
чтобы посмотреть, какие у нас есть статистики и как ее задавать,
но по-хорошему, если у нас нет нормального распределения зависимой переменной,
то мы должны использовать непараметрический тест сразу.
Ну, давайте посмотрим сначала на Фишера.
Находится он в меню «Сравнение средних» — «Однофакторный дисперсионный анализ».
И здесь мы должны задавать зависимые переменные.
Зависимой переменной у нас будет, собственно, то самое количество переходов
на сайт, та переменная, которая зависит от дня недели, по нашему предположению.
Ну, а «Фактор», соответственно, будет день недели.
То есть у нас есть семь дней, и мы хотим проверить.
Что мы можем здесь еще в кнопках задавать?
Мы можем задавать в «Параметрах» просить описательные статистики.
Если мы их попросим,
то тогда мы увидим среднее значение переходов для каждого дня недели.
Также мы можем попросить выдать график средних, чтобы у нас не только цифрами,
но и картинкой, если эти отличия есть, чтобы они были показаны нам.
Плюс «Апостериорные», кнопочка.
Слово длинное, но смысл в том: мы с вами говорили, когда говорили о критерии Фишера
о возможности попарных сравнений, — здесь они реализованы.
Если нажать на эту кнопку, вы увидите большое количество разных вариантов,
как именно осуществляются попарные сравнения, идея здесь одна и та же.
То есть у нас 7 групп, каждая из этих групп будет сравниваться попарно с
остальными, но в зависимости от того, каким образом нормируется эта величина,
у нас есть разные статистики: у нас вот есть и Бонферрони, и Шеффе, и Тьюки,
и много кто другой.
Давайте просто для того, чтобы проиллюстрировать,
посмотрим на Бонферрони, а если хочется подробнее разобраться, в чем разница,
то я отсылаю вас к материалам курса, где в учебнике Ростовцева и Ковалевой описаны
множественные сравнения при помощи разных методов, которые реализованы в SPSS.
Давайте посмотрим, что получится у нас.
Что мы видим в выдаче?
Первая статистика, описательные частоты, первая табличка.
Мы бы ее не увидели, если бы не попросили задать описательные статистики в меню,
то есть это нужно задавать принудительно.
Первый столбик — наполненость групп: сколько, собственно,
у нас было в каждый из дней недели переходов.
Затем мы видим среднее значение по каждому дню недели,
мы видим стандартные отклонения, стандартную ошибку, 95% доверительный
интервал и минимальное и максимальное значение переходов для каждого дня недели.
Дальше, собственно, статистика, критерий Фишера.
Мы видим эмпирическое значение статистики и уровень значимости.
Уровень значимости, равный 0,7, говорит нам о том, что мы попали так очень хорошо,
центрально в доверительную область, не в критическую, в доверительную.
Это значит, что мы принимаем нулевую гипотезу о том,
что нет у нас разницы большой в количестве переходов в зависимости от дня недели.
То же самое может нам намекнуть и столбик со средними значениями.
Мы видим, что все оно приблизительно вокруг пяти крутится: где-то чуть больше,
чем 5, где-то — чуть меньше, чем 5, Но в среднем, в общем-то, 4,96, почти 5.
Дальше посмотрим на попарные сравнения.
То есть мы видим, что в целом у нас нет различий, но, может быть,
есть какие-то дни, которые попарно друг с другом различаются.
Опять-таки мы видим, что нет.
Что мы видим вот в этой вот большой таблице?
Мы видим, что вот он, понедельник, и он попарно сравнивается с каждым днем недели:
со вторником, со средой, с четвергом, с пятницей, с субботой и с воскресеньем.
И так дальше, собственно, по всем остальным дням происходит.
Дальше мы видим, что у нас столбик «Разница средних»: из понедельника,
из среднего значения для понедельника вычитается среднее по вторнику,
среднее по среде, среднее по четвергу, и дальше рассчитывается уровень
значимости для вот этой вот статистики, для разницы средних.
И мы видим, что у нас уровень значимости, в общем-то, везде единичный,
то есть никакой существенной разницы в средних значениях по
этим дням недели тест Бонферрони не видит.
График иллюстрирует, конечно, то, что у нас кликов, например,
в субботу чуть-чуть больше, в воскресенье — совсем нет,
в понедельник тоже сравнительно много переходов, но статистической значимости
нет в этой разнице, поэтому смотреть на нее внимательно смысла нет.
Теперь давайте посмотрим на непараметрический аналог
дисперсионного анализа.
Можем еще раз перепроверить при помощи одновыборочного
теста Колмогорова — Смирнова, то есть нормально ли распределена наша переменная.
Мы проверим.
Заходим в одновыборочный тест, «Количество переходов на сайт»,
«Нормальное распределение».
Видим, что распределение отличается от нормального статистически значимо.
То есть по-хорошему, для того чтобы достоверно статистически оценить разницу
по дням недели, нам нужно использовать непараметрический тест.
Непараметрический тест у нас — тест Краскела — Уоллиса,
и для того чтобы выбрать этот тест,
мы идем в меню «Непараметрические критерии» «Для независимых выборок»,
потому что дни недели у нас — независимые выборки, и выбираем.
Цель у нас будет «Автоматически сравнить распределение для групп».
В полях мы просим переменную «Количество переходов на сайт»,
а в параметрах мы просим: либо мы можем автоматически выбрать критерии,
либо просим настроить критерии самостоятельно.
Настраиваем «Однофакторные дисперсионный анализ Краскела — Уоллиса» — ставим птицу.
Выборок у нас больше, чем две, соответственно, тот тест,
который нам подходит, и запускаем.
Что мы видим?
Мы видим окошечко,
которое рекомендует нам принять нулевую гипотезу о том, что количество
переходов на сайт приблизительно одинаково в любой день недели.
То есть по крайней мере на наших данных выбранным нами тестом гипотеза о
различии в количестве переходов на сайт отвергается.
И мы принимаем нулевую гипотезу о том, что различий, собственно, принципиальных нет.
Нажимаем на вот это вот окошечко двойным щелчком, чтобы убедиться, собственно,
как именно нет различий.
И мы видим, действительно, что здесь у нас есть как графическая иллюстрация,
то есть нам построены вот эти вот ящики с усами по каждому дню недели, мы видим,
что какая-то разница есть, но эту разницу тест счел статистически незначимой.
Вот у нас объем выборки, статистика теста,
количество степеней свободы и уровень значимости.
Уровень значимости — 0,74, который существенно превышает 0,05 и,
соответственно, мы можем уверенно принять нулевую гипотезу о том,
что нет у нас разницы в том, какое количество переходов на сайт получают в
зависимости от дней недели компании.