В этом видео мы поговорим о том, как характеристики центральной тенденции и разбросы в выборки, описанные разными способами, зависит от симметрии распределения. На самом деле оказывается, что для симметричных распределений средняя и медиана дают очень похожие оценки, выглядят практически одинаково, правда же. А если вдруг у распределения появляется длинный хвост справа или длинный хвост слева, то все совсем не так хорошо. Медиана по прежнему покажет на центр распределения, а среднее значение сместится, более того, асимметричность распределения сможет схватить только квартиль. В этом распределении расстояния между медианой и третьим квартилем будет больше, чем между медианой и первым квартилем, и мы увидим, что оно асимметрично. А если мы посчитаем среднее и стандартное отклонение, то асимметричность распределения, она ускользнет от нас абсолютно. Давайте посмотрим повнимательнее на это, и работать мы будем с таким большим датасетом, в котором собраны метаданные о более чем 5 тысячах фильмов. Один предприимчивый молодой человек когда-то собрал эти данные при помощи вэб-скрепинга с сайта IMDB, на котором собранные рецензии от пользователей. И у нас есть, благодаря нему, такой гигантский датасет. На его примере давайте посмотрим, каким образом среднее и медиана отличаются, когда мы пытаемся описать характеристики с разной формы распределения. Нас с вами будет интересовать величина кассового сбора, типичные кассовые сборы для фильмов. Давайте попытаемся определить двумя способами. А еще нас будет интересовать рейтинг. Давайте откроем данные, которые лежат в файле moviе_metadata.csv. Сразу выведем названия переменных, видно, что переменных очень много, нас будут интересовать только переменная gross, это суммарная выручка за все время проката и переменная imdb_score, это, собственно, рейтинг этого фильма на IMDB. О форме распределения мы можем судить уже по значениям квантили и среднего. Если мы посчитаем summary для обеих переменных, то нам покажут five number summary, дополненное значением среднего. И вы видите, что, когда мы говорим о выручке фильмов, медиана и среднее отличаются практически в 2 раза, а если мы говорим о рейтинге фильмов, то медиана и средняя очень похожи. Уже это нас должно натолкнуть на мысли о том, что форма распределения для этих двух переменных будет немного разной, но давайте попробуем построить график. Чтобы это было нагляднее и график у нас будет опять сложный, сверху мы построим гистограмму, чтобы вы видели распределение во всей его красиво, со всеми подробностями, а внизу, под гистограммой наша задача - расположить boxplot, и это не так уж технически просто, вы видели что в ggplot-е все boxplot-ы рисуется вертикально по умолчанию. Вообще это традиционный способ их изображения. А здесь нам нужно boxplot повернуть набок и расположить горизонтально. Еще хорошо бы, чтобы мы на этом boxplot-е видели помимо медианы и квартили, еще и значение среднего и стандартного отклонения, и мы добавим их красным цветом, а среднее будет обозначено знаком плюс, и усы будут показывать стандартные отклонения. Итак, давайте попробуем построить этот график. Начнем мы с распределения выручки. Гистограмм устроить очень просто. Мы берем базовый слой ggplot, говорим откуда брать данные и у гистограммы у geom_histogram только одна эстетика X, а раз мы имеем дело с выручкой, мы говорим, что по X-у будут отложены значения переменной gross. Раскрасим гистограмму разными цветами, и нам придется опять регулировать значение по оси. Нам нужно, чтобы на boxplot-е и на гистограмме оси были в одном и том же масштабе, в диапазоне значений той переменной, которое мы изучаем, в данном случае переменные gross, поэтому мы используем в данном случае geom_cartesian, чтобы отрегулировать величину оси. boxplot строится тоже не очень сложно, большую часть вы о нем знаете. Вот, собственно, boxplot, это geom_boxplot, и у него есть одна единственная эстетика Y, это непрерывная переменная, для которой мы считаем медиану и квартили, но на этот же boxplot нам нужно добавить средний и стандартное отклонение. Мы пишем stat_summary, он посчитает среднее и стандартное отклонение и изобразит их в виде geom-а pointrange. Символ плюс, который будет вместо точки, это символ номер 108. Если вы поищите в интернете есть прекрасные руководства, которые показывают весь набор символов, который может использоваться в ggplot-е для рисования. Мы раскрасим средние и стандартные отклонения в красный цвет. Еще, нам нужно теперь перевернуть этот boxplot. Без последнего слоя boxplot располагается вертикально. Чтобы перевернуть его и одновременно отрегулировать оси, нам понадобится другой coord, coord_flip. Слово flip значит переворачивать, coord_flip меняет местами оси Y и X, и мы задаем диапазон значения переменной gross, и вот, наши два графика. Мы их расположили друг под другом при помощи функции plot_grid из пакета call_plot в один столбик. Чтобы оси были точно друг под другом, мы использовали аргумент align=v, то есть по вертикали выровнять графики, и для изображения гистограммы, конечно, по вертикали нужно гораздо больше места, чем для boxplot-а, поэтому мы установили относительную ширину этих двух, относительно высоту этих двух графиков, гистограмма будет занимать примерно 60% рисунка, а boxplot всего 40. И что же у нас получилось? У нас получилось, что то среднее медианные выручки различаются почти в два раза. Это мы видели еще на summary. Распределение выручки выглядит асимметрично: у него длинный-длинный-длинный правый хвост. Основная часть фильмов получает совсем небольшие сборы, и лишь некоторые становятся кассовыми. Вот такая вот история. Вообще, на самом деле, очень часто, когда мы говорим о каких-то накоплениях, доходах, а каком-то имуществе, то его распределение выглядит так, с длинным-длинным правым хвостом. Давайте теперь попробуем построить графики для распределения рейтингов фильмов. Они строятся абсолютно аналогично, все что у нас меняется, это название переменной, и соответственно, оси мы будем регулировать тоже по разбросу значений этой переменной. Это вещи, которые у нас изменились. А теперь давайте посмотрим на получившийся графики и вы видите, что распределение рейтингов гораздо более симметрично, чем распределение доходов. Может быть у него, конечно, вот этот хвост немножко подлиннее, но это не так уж важно. Средний и медианный рейтинг очень похожи, очень большое количество фильмов имеет оценки от примерно 5,5 до 7. А фильмы в левом хвосте распределения с плохим рейтингом, их много, но это фильмы, которые вообще ужасны, вообще никому не нравятся, а вот в этом коротком хвосте большое количество фильмов с хорошим рейтингом. Возможно люди просто любят оставлять положительные отзывы и пишут их чаще. Вы видите, что в зависимости от формы распределения, средняя и медиана дают разные оценки для симметричных распределенный можно использовать и то и другое. Если вдруг у вас не симметричное распределение, старайтесь использовать медиану и квантили. Одной из симметричных распределений играет особенную роль в статистике, это нормальное распределение. У него есть два параметра, как раз среднее и стандартное отклонение, и мы поговорим об этом распределении гораздо подробнее в нескольких следующих видео.