[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Рассмотрим теперь применение критериев сравнения двух и более выборок на еще одном примере реальных данных. Это данные о цене за аренду квартиры в одном из городов России. Поступим, как обычно, зададим рабочую директорию, куда у нас уже записана таблица с данными, собранными с различных сайтов недвижимости. Создаем новый объект с данными и посмотрим, что он содержит. В данной таблице у нас несколько столбцов. Первый столбец определяет тип квартиры. Это может быть гостинка, либо это может быть однокомнатная квартира в многоквартирном доме. Далее идет цена за аренду, далее этаж, на котором расположена данная квартира. Следующая переменная — это общее число этажей в доме. Далее переменная N2 — это площадь в квадратных метрах. И последняя категориальная переменная содержит информацию о том, является эта квартира меблированной или не меблированной. То есть 1 говорит о наличие мебели, 0, соответственно, нет. Для начала разобъем нашу выборку на две группы. Одна из них будет соответствовать информации о гостинках, вторая будет соответствовать информации об однокомнатных квартирах. Для этого создаем две переменные со значениями цены в зависимости от типа. Первая переменная и вторая переменная. И теперь применим критерий Вилкоксона в сравнение двух независимых выборок. То есть на самом деле нам нужен критерий Манна — Уитни, который реализован с помощью функции wilcox.test, при этом мы должны указать параметр pert равном false. Он идет таким по умолчанию, то есть наши выборки независимы и наблюдения непарные. Применяем этот критерий для двух указанных выборок, то есть сейчас мы сравниваем цену для двух различных типов квартир. Значение статистики Вилкоксона у нас получилось равным 16,5, при этом p-value очень-очень мало, существенно ниже, чем 0,05, заданный уровень значимости. Соответственно, нулевую гипотезу о равенстве средних мы отклоняем и выносим решение о наличии статистически значимых отличий для гостинок и квартир. В принципе, если мы посмотрим данные, то нет особой необходимости проверять, в чью пользу это сравнение. Как мы видим, цена за аренду квартиры в среднем выше, чем цена за аренду гостинки. Теперь проделаем аналогичные операции, сравнивая цены за меблированные и не меблированные квартиры. Создаем также две количественные переменные цены, но сгруппированные теперь уже по значению последней переменной 0 или 1, то есть в скобках мы указываем это условие, и также применяем критерий Манна — Уитни, то есть используем функцию wilcox.test со значением параметра pert = false. В этом случае значение статистики у нас получается 159,5, а значение p-value, как вы видите, равно 0,76, что существенно превышает уровень значимости 0,05. То есть зависимости цены квартиры от меблировки в данном случае нет. Посмотрим, может ли влиять этаж на цену квартиры в данном случае. Для этого мы сначала посмотрим, какие этажи и в каком количестве в принципе представлены в данной базе. Для того чтобы вывести таблицу частот, которая покажет нам, какие значения сколько раз встречаются в выборке, мы используем функцию table, которую применим для столбца «этаж». Как мы видим, у нас достаточно много квартир на первом и втором этаже, пять квартир на третьем и так далее. Начиная с шестого этажа, у нас представлено буквально по одному-два значения. Поскольку выборки содержат всего одно наблюдение, мы не сможем применить критерий сравнения групп, то есть нам нужно, чтобы в каждую выборку входило по крайней мере несколько наблюдений. В данном случае можно, например, объединить все верхние этажи в общую группу. Давайте попробуем это сделать. Поступаем мы следующим образом. Мы оставим значения 1-го, 2-го, 3-го, 4-го и 5-го этажей, а все этажи, которые выше 5-го, мы объединим в одну общую группу и присвоим этой группе значение 6. Понятно, что теперь это значение будет достаточно условно, это просто маркер группы верхних этажей. Для этого мы задаем следующую операцию. Мы берем переменные «этаж» из нашей базы data F, те, для которых значение этажа больше 5. Выполняем эту операцию. И выведем теперь частотную таблицу. То есть вот эти последние значения у нас были объединены в общую группу, их общее количество равно 7. Теперь мы сравним эти шесть групп, то есть значение цены для этажей от первого по пятый, и для верхних этажей, которые мы объединили в шестую группу, по критерию Краскела — Уоллиса. Теперь проведем сравнение цены квартиры в зависимости от этажа для этажей с первого по пятый и для верхних этажей. Поскольку эти группы наблюдений у нас независимы, мы применяем критерий Краскела — Уоллиса. Создаем объект с информацией о результатах анализа, в данном случае мы анализируем цену в зависимости от этажа. И выводим результаты анализа. Проверяемая нулевая гипотеза о том, что нет статистически значимых отличий по исследуемому показателю между группами, значение p-value у нас получилось меньше, чем 0,05, то есть мы отклоняем нулевую гипотезу и выносим решение о том, что статистически значимые отличия имеются. Давайте выведем эти результаты на график с помощью диаграммы размаха. Если мы посмотрим на этот график, то можно предположить и при необходимости проверить дополнительно, что значения со второго по пятый этаж примерно одинаковы. Значения цены за аренду квартиры на первом этаже ниже общего среднего уровня, а вот для верхних этажей эта величина, наоборот, выше. Но с этим результатом нужно быть аккуратнее, потому что тут могут быть некоторые скрытые зависимости. Например, возможно, что квартиры, находящиеся на более высоких этажах расположены, соответственно, в более новых современных домах. То есть цена за них выше не потому, что тут выше этаж, а потому что это более современный дом с качественной отделкой и прочими другими характеристиками. Тем не менее, в данном случае мы видим вот такую вот зависимость, и критерий Краскела — Уоллиса нам подтверждает статистически значимые отличия. [МУЗЫКА] [МУЗЫКА]