[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Уважаемые слушатели, данный урок посвящен анализу таблиц сопряженности, которые используются при оценке степени тесноты статистической связи двух категориальных или качественных переменных. Пусть рассматривается n объектов, для которых анализируется связь двух признаков — признака A и признака B. Для начала рассмотрим простой случай, когда признаки A и B бинарные, то есть каждый объект может либо обладать или не обладать соответствующим признаком, например, это может быть наличие какого-то заболевания или его отсутствие, наличие профильного образования в какой-то области или также его отсутствие, или, например, какой-то бинарный признак типа пол, то есть мужчина и женщина. То есть признак A имеет два своих возможных значения: A и не A. Признак B имеет также два возможных значения: B и не B. В этом случае таблица сопряженности этих двух признаков представляет собой двумерную матрицу, где в ячейках величинами nij обозначено число объектов, в частности n11 — это число объектов, которые обладают первым уровнем признака A и первым уровнем признака B, n12 — это число объектов, обладающих первым уровнем признака A и вторым уровнем признака B. И так далее. Мы можем просуммировать эти частоты по строкам, и тогда через n1. у нас будет обозначено число объектов, обладающих первым уровнем признака A, независимо от уровня B, и так далее аналогично, просуммировав по второй строке либо по первому и второму столбцу, мы получим соответствующие частоты для каждого уровня признаков. Предполагается, что каждый объект может обладать только одним из уровней A и только одним из уровней B. То есть он попадает только в одну из этих ячеек, то есть каждый объект может быть посчитан только один раз. Сумма всех вот этих четырех частот дает нам полный объем выборки. На основании анализа этих частот мы должны сделать вывод о том, связаны эти признаки или не связаны. Говорят, что признаки связаны положительно, если доля носителей признака A среди носителей B выше, чем среди носителей не B. И наоборот, говорят, что признаки связаны отрицательно, если доля носителей признака A выше среди носителей не B, чем B. В более общем случае мы можем рассмотреть ситуацию также двух признаков, но когда каждый признак может иметь не два, а большее число уровней. Например, у признака A это может быть число уровней m, а у признака B — число уровней k. В этом случае мы также можем составить аналогичную таблицу, но ее размерность будет уже не 2 x 2, а m x k. То есть мы получаем вот такую табличку, где каждый объект учтен один раз. То есть он попадает в какую-то одну из ячеек, и тем самым суммарная частота также дает нам полный объем выборки. Оценка степени тесноты статистической связи между признаками A и B на основании таблицы сопряженности оценивается с помощью коэффициента квадратичной сопряженности, который имеет хи-квадрат распределение. Вычисляется он вот по такой формуле на основании частот исходной таблицы. В случае если A и B строго независимы, коэффициент этот принимает значение равным нулю. Имеет он распределение хи-квадрат с числом степеней свободы (m − 1)(k − 1), где m — это количество уровней признака A, а k — это количество уровней признака B. Если вычисленный по вот этой формуле коэффициент квадратичной сопряженности меньше критического значения распределения хи-квадрат, то есть квантиля уровня 1 − α при заданном уровне значимости α с числом степеней свободы (m − 1) и (k − 1), нулевая гипотеза об отсутствии статистически значимой связи между A и B принимается. Если выполняется противоположное неравенство, то есть коэффициент квадратичной сопряженности больше или равен критическому значению хи-квадрат, в этом случае у нас нулевая гипотеза отклоняется, и выносится решение о том, что признаки A и B зависимы. Рассмотрим теперь, как провести анализ таблицы сопряженности в пакете R. Для этого посмотрим простой пример. Допустим, в трех группах была проведена некоторая контрольная работа, за которую студенты получили оценки «отлично», «хорошо» и «удовлетворительно». Данные приведены в соответствующей таблице, которая отражает распределение частоты оценок по группам. Проверим, зависит ли распределение оценок от номера группы. Получается, что у нас в данном случае исследуется связь двух признаков. Это балл, полученный за контрольную работу, и номер группы. Эти данные приведены в таблице. Сформируем эту таблицу в пакете R. Задаем вектор частот для первой группы, для второй группы и для третьей группы соответственно. Вот у нас сформировались соответствующие объекты. Далее соберем все эти значения в общую матрицу, матрицу будем формировать по строкам и сразу же дадим значения: по строкам это будут номера групп — группа первая, вторая и третья, а по столбцам это будут соответствующие оценки — «удовлетворительно», «хорошо» и «отлично». Посмотрим, какой объект у нас сформировался. Вот мы видим эту таблицу, но теперь уже созданную внутри языка R. Как мы рассматривали в теории, для того чтобы проанализировать таблицу, мы должны построить коэффициент квадратичной сопряженности и по критерию хи-квадрат проверить гипотезу об отсутствии связи между исследуемыми признаками. Для этого к объекту grades, оценки, нам нужно применить хи-квадрат тест. Делается это с помощью вот такой операции, давайте ее сразу выполним. У нас выводится на консоль результат этого действия. То есть был применен критерий хи-квадрат для объекта grades, значение хи-квадрата, то есть коэффициента квадратичной сопряженности для нашей выборки получилось 2,57. Число степеней свободы в этом случае равно четырем. Почему? Число степеней свободы для таблицы сопряженности определяется как (m − 1)(k − 1), где m — это количество уровней первого признака, а k — это количество уровней второго признака. Поскольку у нас оба признака в данном случае имеют по три уровня, то есть (3 − 1)(3 − 1) дает нам число степеней свободы, равное 4. p-value в данном случае получилось 0,6. То есть если мы хотим проверить гипотезу на уровне значимости 0,05, то есть при пятипроцентном уровне значимости, значение p-value существенно превышает наш уровень значимости, в этом случае мы не можем отклонять нулевую гипотезу. Соответственно мы принимаем гипотезу о том, что признаки независимы. То есть в нашем конкретном случае мы можем интерпретировать это как: распределение оценок не зависит от номера группы, то есть успеваемость в группах примерно одинаковая. А теперь давайте рассмотрим немного другую ситуацию, то есть возьмем другую таблицу распределения оценок. Поменяем частоты для групп и зададим их следующим образом. Формируем также новый объект, выводим его на экран, то есть теперь у нас вот такие частоты, они немного отличаются от исходных. И теперь для этой таблицы также применим тот же самый тест хи-квадрат. Здесь мы получили уже другое значение статистики при, конечно же, тех же степенях свободы. так как количество уровней для обоих объектов у нас не поменялось. И теперь мы видим, что величина p-value у нас составляет 0,04, что меньше, чем уровень значимости 0,05. Соответственно на уровне значимости 0,05 мы нулевую гипотезу об отсутствии связи между признаками должны отклонить и вынести решение о том, что признаки связаны. Это говорит о том, что распределение оценок для вот таких вот групп теперь зависит от номера группы. И как мы можем посмотреть на наши данные, видно, что успеваемость в третьей группе получилась несколько выше. Здесь идет преобладание оценок «отлично» И пропорция частот уже иная. Если мы столкнулись с ситуацией, когда таблица сопряжённости содержит слишком малые частоты, то есть у нас имеются ячейки, которые содержат менее пяти наблюдений, в этом случает применение χ² не очень корректно. Тогда правильнее обратиться к точному критерию Фишера, который применяется в случае, когда частоты в ячейках малы. В принципе в нашем случае все частоты были по крайней мере равны 5 и больше, то есть мы могли применять критерий χ², но давайте посмотрим, что бы нам дал критерий Фишера для того же самого объекта. Как видим, значение p-value у нас немножко изменилось, но, тем не менее, у неё примерно тот же порядок, что и при тесте χ², и мы можем сделать то же самое решение о том, что для второй таблицы сопряжённости зависимость признаков принимается. Часто при анализе взаимосвязи двух признаков A и B исходные данные представляются в следующем виде: имеется набор объектов или выборка, и для каждого из объектов имеется информация по каждому анализируемому признаку. Например, для признака A, если объект обладает этим признаком, указывается значение 1, и 0, если объект этим признаком не обладает. И аналогично для признака B. Также указывается 1, если объект обладает этим признаком, и 0, если у данного объекта этот признак не выявлен. Тем самым мы получаем четыре возможные комбинации, когда оба объекта содержат 0, то есть не обладают ни признаком A, ни признаком B, когда имеется 1 только по одному из этих признаков, то есть либо только по B, либо только по A, и ещё одна ситуация, когда оба признака у объекта представлены. В этом случае мы имеем две единицы. Соответственно, все объекты могут быть разделены на четыре категории. Мы должны составить самостоятельно на основе этих данных таблицу сопряжённости, и уже далее провести анализ полученных частот. В данном случае были взяты реальные данные, где A и B — это два различных заболевания. Соответственно, объектами были пациенты, у которых были выявлены либо не выявлены соответствующие заболевания. Задача, которая ставилась, это выяснить, связаны ли эти заболевания между собой. То есть влияет ли предрасположенность к одному из них на повышение вероятности возникновения другого. Давайте сейчас импортируем подобные данные в пакет R, только для простоты и удобства сделаем это из текстового файла, чтобы не подключать дополнительно пакет работы с Excel-евскими таблицами. Заходим в пакет R и импортируем данные из таблицы для связи двух признаков A и B. Посмотрим, как импортировалась эта таблица. Вот у нас здесь сейчас представлено 356 наблюдений, содержащие 0 и 1 по каждому столбцу. Первым шагом мы должны посмотреть таблицу сопряжённости, то есть мы должны составить таблицу 2 на 2 по каждому уровню признака. Сделать это можно с помощью операции Table. Вот табличка для признака A и B, где 0 1 уровни признака A расположены по строкам, уровни признака B расположены по столбцам. Количество наблюдений, не обладающих ни одним признаком, равно 195, количество наблюдений, обладающих только признаком B — 122, количество наблюдений, обладающих только признаком A — 16, и обоими признаками — 23. Для того, чтобы работать с этой таблицей, мы сохраним её в отдельный объект, например, назовём его Tab. И применим критерий χ² для данной таблицы, как это было сделано ранее. Как видим, значение статистики χ² в данном случае у нас составляет 5.22. Одна степень свободы, потому что таблица у нас 2 на 2, то есть количество уровней признака A равно 2, количество уровней признака B равно 2, (2 − 1) * (2 − 1) даёт нам 1 степень свободы. Значение p-value равно 0.02, что меньше, чем 0.05, соответственно, при уровне значимости 0.05 нулевая гипотеза об отсутствии связи между признаками A и B отклоняется. Следовательно, можно сделать вывод, что признаки A и B зависимы. [МУЗЫКА] [МУЗЫКА]