[МУЗЫКА] [МУЗЫКА] А теперь давайте поговорим о другой паре, о другой связке описательных характеристик выборки — о среднем и стандартном отклонении. Со средним арифметическим вы, безусловно, знакомы и знаете, как оно считается: это сумма элементов, деленная на число элементов. Мы можем вручную это посчитать, уже знаем все эти функции. А в R есть специальная функция Mean, которая считает среднее значение. Эта характеристика описывает центральную тенденцию в выборке. Среднее значение — можно себе представить, что это такая опора у качелей из доски. Если мы опору разместим там, где среднее значение, то выборка уравновесится. Есть проблема — как нам описать разброс значений. Самые очевидные способы работать не будут. Если мы возьмем и просто посчитаем разницы наших конкретных значений от среднего значения, то разницы будут положительные и отрицательные, и в этом проблема, потому что их сумма будет равна нулю. То есть мы не можем так охарактеризовать разброс — они взаимно уничтожатся. В том, что сумма девиат равна нулю, легко убедиться. Можно это вывести формально. Давайте попробуем расписать формулу девиат как разность двух сумм: суммы значений наблюдений и суммы средних значений. Это сумма от единицы до числа наблюдений, поэтому это то же самое, что n раз взять среднее значение. И опять мы можем расписать среднее значение, поставив сюда его формулу, и тогда n у нас сократится, и вся сумма будет равна нулю. То есть сумма девиат равна нулю всегда, и это неприятно, с этим нужно как-то бороться, нужно как-то избавиться от этих знаков плюс и минус. Чтобы избавиться от знаков плюс и минус, нам нужно попробовать возвести девиаты в квадрат. Квадрат решит проблему. Действительно, если мы теперь посчитаем сумму квадратов девиат, то она уже не будет равна нулю. Но осталось один небольшой шаг сделать — нам же интересно, на сколько в среднем отклоняются какие-то наблюдения от среднего значения. То есть мы должны придумать, на что это разделить. Но так случилось, что здесь тоже не все так просто. Мы не можем так просто взять сумму квадратов девиат и поделить ее на n. Дело в том, что не все наблюдения в нашей выборке являются независимыми, не все эти девиаты являются независимыми друг от друга. Про них мы знаем одну важную вещь: мы знаем, что сумма отклонений от среднего равна нулю. Это значит, что если мы знаем среднее значение, мы можем взять n минус одну девиату какие угодно, и последнюю точно вычислить. То есть мы не можем делить на n. Мы должны делить на число независимых наблюдений, это называется число степеней свободы. В данном случае число степеней свободы для нашей меры разброса будет n − 1, то есть объем выборки минус одно наблюдение. Поздравляю! Мы изобрели меру разбросов в выборке. Эта мера называется дисперсией, иногда ее еще называют средний квадрат отклонений. Теперь вы понимаете, почему: потому что мы берем сумму квадратов отклонений, делим ее на число степеней свободы. В R это можно вычислить как вручную, так и при помощи функции var — от английского слова variance. Видим, что функция var дает нам значение дисперсии по выборке. Но, к сожалению, у дисперсий есть один недостаток — их не получится нарисовать на графике, потому что они измерены совершенно в других единицах. Если у нас стоимость обеда измерена в рублях, то из-за возведения в квадрат дисперсия получается измерена как бы в квадратных рублях. Это не совсем то же самое, поэтому нужно от этого избавиться. И если мы извлечем из дисперсии корень, то получим обратно рубли и сможем нанести эту величину на графике. Это называется стандартное отклонение, по-английски называется Standard Deviation и часто сокращается первыми двумя буквами SD. В R есть специальная функция, которая считает стандартное отклонение, то есть нам необязательно считать дисперсию, потом брать из нее корень, можно сразу использовать функцию SD, и она посчитает выборочное стандартное отклонение. Итак, оказывается, что в среднем значения стоимости обеда в нашем векторе отклоняются от среднего на 27 — почти на 28 рублей. Эту величину уже можно изобразить на графике. В ggplot график из среднего и стандартного отклонения можно легко построить при помощи stat_summary. Нам необязательно заранее считать стандартное отклонение, stat_summary внутри сам их посчитает. Он будет использовать функцию, которая называется mean_sdl, и она находится в самом пакете ggplot, вы можете посмотреть на ее аргументы в файле справки. Эта функция вернет stat'у значение среднего и стандартное отклонение столько раз, сколько указано в ее аргументе mult. Мы хотим отложить по одному стандартному отклонению, поэтому мы в список аргументов функции fun.args передаем список из одного-единственного значения mult = 1. Как это среднее стандартное отклонение будет изображаться? Мы же должны использовать geom. У любого stat есть аргумент geom, по умолчанию stat_summary использует geom = pointrange. Я вам написала это, специально чтобы вы это вспомнили и выучили. pointrange — что это такое? point — это точка, range — это размах варьирования. Итак, наш график готов, теперь мы можем его просматривать. Мы видим, что среднее значение — это около 320, и видим разброс. Но в предыдущем видео мы с вами познакомились с другой связкой описания центральной тенденции и разброса в выборке. Как они соотносятся? Давайте попробуем к этому графику добавить boxplot рядом, чтобы это было нагляднее. С этим слоем вы уже знакомы, мы boxplot отдельно уже строили. Вы видите, что ggplot — это модульная структура, и нам достаточно просто скопировать выражение для этого слоя и положить на графике. На графике появится boxplot тоже. Видно, что значение медианы и значение среднего для нашего вектора очень близки. Более того, видно, что коробка вокруг медианы на boxplot — она немного асимметрична. То есть медиана сдвинута относительно границ коробки. А стандартное отклонение абсолютно одинаково, то есть вот этот вот отрезок равен вот этому отрезку. Для симметричных распределений медиана и среднее дадут очень похожую оценку центральной тенденции. У нас симметричное распределение этих стоимостей обеда, поэтому медиана и среднее похожи. Границы квантилей покажут нам, если распределение вдруг хоть сколько-нибудь было асимметричным. А стандартное отклонение никогда этого не сделает. Поэтому что удобнее использовать, для какой выборки — вы можете определить, только построив заранее гистограмму. Если вы знаете свойства выборки, то вы можете подобрать под них подходящий способ описания центральной тенденции и разброса. В частности, эти меры центральной тенденции и разброса в разной степени чувствительны не только к асимметрии распределения, но и к наличию в нем выбросов. Вот эти две их особенности мы разберем в двух следующих видео.