0:00
[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] В
этой лекции мы начинаем разговор о параметрах распределений и мы продолжим
этот разговор на следующей лекции, возможно, ещё и дальше.
Вы уже знаете много о теоретическом поведении распределений и вы также знаете
о том, что основная задача аналитика данных состоит в том,
чтобы на небольшой выборке, на маленьком объёме, который у нас есть,
оценить, что там происходит в генеральной совокупности.
То есть то, что мы видим на наших выборочных данных,
интересно нам не само по себе, а интересно как оценка —
и желательно качественная — того, что происходит в генеральной совокупности.
И для того чтобы оценить, описать распределение характеристики,
нам нужно знать как минимум две вещи.
Во-первых, то, где располагаются типичные значения этой характеристики, то есть где
находится центр, что наиболее характерно, и то, насколько эти значения разрознены,
насколько они распространены, насколько они не одинаковые.
Для первой задачи существуют меры центральной тенденции или меры среднего,
и о них мы поговорим в этой лекции.
Для второй задачи существуют меры разброса или вариативности,
и об этом будет наша следующая лекция.
Сейчас поговорим, собственно, о мерах центра.
Когда мы думаем о мерах центра, первое,
что приходит в голову — это обобщённое представление чего-то в среднем.
Когда мы пытаемся представить что-то в обобщённом виде,
мы говорим «средний доход», «средний балл абитуриентов ЕГЭ»,
«средний чек в ресторане» или что-то такое.
Говоря это, мы даём какую-то обобщённую оценку того,
что даёт нам сориентироваться.
Средний доход в стране позволяет нам сказать, богатая страна или не очень.
Средний балл ЕГЭ позволяет нам судить о качестве вуза и стоит ли отправлять туда
своего ребёнка.
Ну а средний чек ресторана даёт нам сориентироваться, стоит туда идти или нет,
и чего ожидать, когда мы придём туда перекусить.
Среднее арифметическое — это, наверное, самая интуитивно понятная мера центра,
и как она рассчитывается, в общем-то мы все знаем.
Для того чтобы посчитать среднее, нам нужно взять значение всех объектов,
какие только есть, просуммировать и поделить эту сумму на количество объектов,
которое есть в нашей выборке.
Таким образом мы получим арифметическое среднее.
Эта оценка действительно качественная для распределений,
о которых вы слышали в предыдущих лекциях.
Если это распределение нормальное, то есть имеет купол,
оно симметричное или по крайней мере оно не имеет каких-то выраженных искривлений.
Но в том случае, когда у распределения появляются какие-то особенности,
к примеру, выбросы...
Выбросами называются значения, которые слишком далеко отстоят от среднего.
Допустим, у нас есть компания, в которой работает 11 человек.
Доходы этих людей вы видите сейчас на экране.
Кто-то получает меньше, кто-то получает больше.
Есть у нас люди, которые работают на неквалифицированных должностях,
есть руководство, но в среднем от 12 до 50 тысяч рублей отличаются их зарплаты,
в среднем они получают 23 с небольшим тысячи, как показано на экране.
Предположим, что случился в компании конфликт.
И Иван Иванович, который работал на какой-то простой должности (он отмечен
красным) поссорился с руководством и его уволили.
Взамен него взяли Аполлинария Святославовича, человека,
который либо имеет какие-то уникальные навыки, либо просто знает людей,
но руководство почему-то согласилось платить ему 150 000 рублей.
Цифра, которая для этой компании нетипична.
Значит произошла замена.
Вместо Ивана Ивановича, который получал 18, появился Аполлинарий Святославович,
который теперь получает 150.
Почему, мы не знаем, это у нас остаётся, к сожалению, неведомым нам, это легенда,
а то все бы мы так и делали.
Что происходит со средним значением?
Мы видим, что большинство людей остались приблизительно в том же положении,
то есть они сколько получали, столько и получают,
но единственный человек начал получать больше.
И если мы посчитаем среднее значение на новом ряду данных, то мы увидим,
что в среднем эти люди получают уже на 23 тысячи, как было при Иване Ивановиче,
а уже 35.
При этом мы видим: зарплаты не изменились,
но в среднем для стороннего взгляда доходы людей в этой компании стали существенно
выше, хотя мы понимаем, что один Аполлинарий Святославович существенно не
изменил благосостояние каждого конкретного человека в компании.
Ну и что же тогда делать?
Какую меру использовать, если у нас случилось то, что случилось?
Если у нас одно значение оказалось выбивающимся,
но при этом нам всё равно нужно оценить центр.
В таком случае мы можем сделать две вещи.
Во-первых, мы можем рассчитать так называемые усечённые статистики,
то есть это будет то же самое арифметическое среднее,
но рассчитываться оно будет на не полном массиве.
То есть что мы сделаем: мы отбросим выдающиеся значения.
Мы отбросим самый маленький доход и мы отбросим самый большой доход,
и рассчитаем среднее на том, что осталось.
Так делают в спорте, например, когда десять судей оценивают то,
как выступил спортсмен, и две крайние оценки отбрасываются.
Потому что судьи могут быть не объективны, кто-то может быть предвзят в плюс,
кто-то может быть, наоборот, предвзят в минус, и для того, чтобы вот это вот
нечестное судейство не влияло на оценку спортсмена, крайние оценки отбрасываются,
и среднее считается на вот этом вот как-бы более объективном поле.
То же самое можно делать и с доходами.
Другой вариант — можно использовать робастные статистики.
Это статистики, которые сами по себе не чувствительные к выбросам.
И самая интуитивно понятная,
еще одна интуитивно понятная статистика из робастных — это мода.
Мода — это самое распространённое значение.
Это просто та цифра, которая встречается в ряду чаще всего.
Если мы посмотрим на данные по нашим зарплатам, мы увидим,
что единственное число, которое встречается дважды, это 15.
Все остальные числа встречаются только один раз.
Вообще, на количественных переменных мода — это мало информативная величина,
потому что немного относительно значений очень часто встречаются вместе, но при
этом это даёт какое-то представление, но эта мера незаменима для шкал другого типа.
То есть мода незаменима для номинальных переменных, и это мы с вами еще увидим.
Сейчас просто запомним, что мода — это самое распространённое значение,
и она нам тоже позволяет оценить, где находится центр распределения,
где находится самое типичное его значение.
С какой точки зрения мода бывает важна, мод распределения бывает несколько.
Вот на экране вы видите сейчас бимодальное распределение,
которое похоже на двугорбого верблюда, такой вот бактриан немножечко.
Это распределение, в котором есть два выраженных пика.
Их может быть больше, но посмотрим для примера просто на два.
С чем это может быть связано?
К примеру, если мы исследуем средний балл ЕГЭ в школах.
Возможно, у нас есть разные типы школ,
которые по-разному готовят учеников: какие-то готовят лучше, какие-то — хуже.
И мы видим, что вот первый пик, например, — это оценки за ЕГЭ в обычных школах,
и второй пик — это оценки за ЕГЭ в школах,
которые как-то по-особенному готовят и слишком в этом преуспевают.
Другой вариант, например, если мы измеряем потребление бензина,
и машина часть времени идёт по скоростным магистралям, где, как мы знаем,
бензина тратится меньше, а часть времени ездит по городу, по пробкам,
где бензина на то же расстояние тратится больше.
И вот мы видим два пика: один — для дорог, другой — для пробок.
Если мы видим две моды, это для вас знак,
что ваши данные имеют какую-то внутреннюю структуру, что, возможно,
есть какие-то две подгруппы, которые качественно отличаются друг от друга.
И, может быть, есть смысл не смотреть на это распределение в целом,
а разделить его на вот эти вот группы и посмотреть на них отдельно.
Наверняка, какие-то интересные вещи могут всплыть при таком вот избирательном
подходе.
Ещё одна мера — последняя из робастных статистик — медиана.
Она также позволяет оценить центр, но она делает это немножечко по-другому.
Если мы возьмём вариационный ряд — вы уже помните что это такое из предыдущих
лекций — выложим все наши значения доходов.
Очень хорошо, что у нас небольшая компания,
мы на всех на них можем посмотреть вот перед глазами.
Самая маленькая зарплата идёт сначала, потом по порядку и до самой большой.
Медиана — это вот то самое серединное значение, которое делит вариационный ряд
пополам, меньше этого значения — 50 %, и больше этого значения — 50 % объектов.
В нашем примере это вот тот самый шестой элемент — почти пятый, только шестой — до
которого лежит пять человек и после которого находится пять человек.
То есть пять человек получает больше, пять человек получает меньше.
Медианное значение — в нашем случае это 20 000 рублей — это вот та самая середина,
выше и ниже которой расположена половина сотрудников компании.
Если у нас вдруг чётное количество сотрудников в компании работает,
то у нас нет одного такого числа, у нас есть два.
Для того чтобы посчитать медиану, мы складываем эти два числа и делим пополам.
Среднее арифметическое от этих двух серединных значений будет нашей медианой.
Но в нашем случае у нас 11 человек, нет нужды этого делать.
Давайте посчитаем все три меры (моду,
медиану и среднее) на примере вот этой вот нашей зарплаты воображаемой компании.
Мода: мы видим единственное число, которое встречается дважды, это 15, мода — 15.
Медиана — 20, это тот самый шестой элемент,
который делит распределение пополам.
И среднее значение: берём все доходы суммируем, делим на 11,
получаем 23 700 с небольшим.
Это вот то, сколько в среднем получают люди в этой компании.
Попробуйте теперь посчитать, как эти величины будут выглядеть на распределении
после того, как Иван Иванович был уволен,
и Аполлинарий Святославович со своей высокой зарплатой пришёл вместо него.
Мы видим теперь, что среднее — это единственная величина,
которая очень сильно пострадала от прихода Аполлинария Святославовича.
То есть средняя увеличилась почти на 50 %,
при том что положение большинства сотрудников организации не изменилось.
То есть с 23 на 35 при том, что люди остались, в общем-то, при том же,
при чём и были.
Мода не изменилась вовсе: 15 как встречалось дважды,
так и продолжает встречаться дважды, а медиана немного сдвинулась вправо.
Была 20 000, стала 25 000.
Но это, в общем,
объяснимо: мы уволили одного человека из левой части вариационного ряда и добавили
одного человека в правую часть вариационного ряда.
Это, соответственно, сдвинуло медиану немножечко вправо,
в сторону больших значений.
Если мы посчитаем усечённое среднее, то есть отбросим 12 и 150,
то получится величина 25 111, это близко к медиане, и это тоже, в общем,
достаточно точная оценка среднего.
Если мы посмотрим на все доходы, увидим, что ну да, кто-то больше, кто-то меньше,
но в среднем что-то вроде того.
Таким образом, если у нас есть распределение, которое паранормально в
каком-то смысле, то есть если у нас есть выбросы, есть нетипичные значения,
то лучше использовать или усечённые или робастные статистики.
Эти оценки генерального среднего, эти оценки того,
что происходит в среднем в генеральной совокупности,
будут гораздо более точными, потому что очевидно, что высокая зарплата
одного человека не способна изменить к лучшему благосостояние страны в целом.
И в заключение немножечко о взаимном расположении этих мер.
Мы знаем, что нормальное распределение — это распределение симметричное.
То есть у нас есть купол и относительно этого купола симметричные хвосты.
В середине, если распределение абсолютно симметрично, то мода, медиана и среднее
будут совпадать, то есть распределение будет симметрично относительно этой точки,
в которой все три меры сходятся.
Это идеальная ситуация, которая в жизни почти никогда не бывает.
И у нас распределения либо отличаются от нормального существенно, либо,
если они отличаются от нормального не существенно, то есть они унимодальные и
всё-таки более или менее похожи на купол, купол этот, как правило, сдвинут.
Либо сдвинут влево в сторону меньших значений, и это бывает, например,
в ситуации с распределением доходов.
Если мы посмотрим на распределение доходов в большинстве стран, мы увидим,
что относительно большая часть населения получает относительно меньшие доходы,
и это означает скошенность, сдвиг горба влево в сторону меньших значений.
Если же мы видим, что горб сдвинут вправо в сторону больших значений,
так случается, например, если мы задали слишком лёгкий тест,
и студенты справляются с ним слишком хорошо.
То есть большая часть студентов решает этот тест лучше,
чем среднее возможное значение.
И вот это вот взаимное расположение мер тоже позволяет нам сориентироваться и
понять, как же у нас, собственно, распределены...
как ведёт себя параметр, который нас интересует.
Либо у нас большинство людей характеризуется высокими его значениями,
либо низкими, либо,
в общем-то, всё большинство концентрируется вокруг серединки.
И это нас уже естественным образом сдвигает в сторону обсуждения мер
вариативности.
То, как можно рассуждать о разбросе, и о том,
насколько разнообразные данные — об этом подробней поговорим в следующей лекции.