[МУЗЫКА] [МУЗЫКА] С помощью данных мы пытаемся ответить на какие-то вопросы о реальном мире, и практически все может стать источником такого вопроса. Веб-аналитик может захотеть узнать, от чего зависит посещаемость сайта, как она зависит от дизайна. Кто-то — медик, например — захочет узнать, от чего зависит время выздоровления пациентов при разной терапии. Какой-нибудь производитель сыра захочет узнать, как характеристики технологического производства влияют на его вкус. Все что угодно может стать источником вопроса. И когда мы изучаем окружающий мир, мы, конечно, хотим изучить какую-то генеральную совокупность абстрактно. Это такое множество объектов, которое нам недоступно, но о свойствах которого мы бы хотели делать выводы. А приходится на самом деле нам иметь дело только с выборкой из этой генеральной совокупности, и это уже что-то конкретное. То есть для генеральной совокупности вообще всех в принципе посетителей сайта выборкой может быть набор посетителей за определенный день или другой период времени. Если вы хотели изучать время выздоровления при разных видах терапии, то генеральная совокупность — это все люди, которые страдают этим заболеванием, но вам придется иметь дело с выборкой из этих людей. И только те люди, которые будут участвовать в вашем клиническом исследовании — это ваша выборка. Свойства генеральной совокупности называются «параметры», а свойства выборки, которые мы измеряем по реальным данным, называются «выборочные статистики». Параметры принято обозначать буквами греческого алфавита: стандартное отклонение σ, среднее значение μ, коэффициент корреляции ρ. Их выборочные оценки принято обозначать латинскими буквами: выборочное стандартное отклонение — S, выборочное среднее часто обозначается названием переменной с горизонтальной чертой над ней, и коэффициент корреляции — это будет латинская буква r. Описанием свойств выборок занимается описательная статистика. Но на самом деле мы хотим не просто описывать свойства выборок, мы хотим делать выводы о параметрах в генеральной совокупности. И этим занимается Inference, построение умозаключений. И построение умозаключений совершенно невозможно без предварительного описания выборок. В этом модуле мы с вами займемся именно описательной статистикой. Чтобы оценкам параметров генеральной совокупности можно было верить, нам нужно использовать такие выборки, которые позволяют нам получить достаточно надежные оценки. Чтобы это получилось, нужно, чтобы выполнялись два требования. Во-первых, выборка должна быть репрезентативной. Это значит, что она должна отражать свойства генеральной совокупности. Например, если мы изучаем болезнь, которая поражает мужчин и женщин в определенном возрасте, нам нужно, чтобы в нашу выборку попали и мужчины, и женщины, и у них была соответствующая возрастная группа. Если мы хотим изучить свойства какого-то сорта сыра, то, конечно, мы не должны брать другой сорт в нашу выборку. И, наверное, изучения технологии производства сыра, они должны касаться конкретного завода или множества заводов, в зависимости от того, какая генеральная совокупность нас в итоге интересует, чтобы экстраполировать выводы. Вторая вещь, которая должна выполняться: измерения должны быть адекватны. Это значит, что у нас должна быть физическая возможность измерить ровно то, что мы хотели. В некоторых случаях это не так-то просто. Во всех исследованиях, связанных с людьми, люди обычно, если знают, что с ними происходит, они так себя накручивают, что с ними начинает происходить ровно то, что они ожидали. Поэтому обычно требуется, чтобы исследования были слепыми, а лучше двойными слепыми, чтобы даже экспериментатор, который производит воздействие, не знал о том, к какому результату оно должно привести. Все это этикетируется таким образом, что только на стадии обработки данных это становится окончательно ясно. Так мы избегаем этой погрешности, связанной с тем, что люди знают, что с ними происходит. Например, если вы исследуете, как разные технологии производства сыра влияют на его вкус, вы, наверное, возьмете в ваше исследование экспертов, и они будут пробовать сыр, произведенный по разной технологии. Понятно, что, если они будут знать, что это за сыр, может быть, они будут не совсем честно судить о его вкусе. Или, например, если часть экспертов у вас будет голодная, а часть — сытая, они будут давать смещенные оценки. Сытый эксперт голодному не товарищ. Лучше, чтобы они были все достаточно голодные, чтобы быть объективными, что называется. В общем, насколько вам нужно модифицировать технологию взятия выборок, зависит исключительно от того, что за объект вы изучаете, какой проблемой вы занимаетесь. И это довольно большая область исследований, которая называется «Планирование экспериментов». Мы этому не будем посвящать больше ни единого слайда. Я думаю, что вы сможете найти на сайте нашего курса список источников, где очень хорошо изложены методы планирования экспериментов. В выборке мы имеем дело с некоторыми свойствами. Свойства объектов, которые мы изучаем, называются «переменные», это признаки объектов. Переменные бывают разных типов. Мы немножко с этим сталкивались, когда занимались основами R, и вы помните, что они бывают категориальные, бывают числовые. И категориальные всегда дискретны, а числовые иногда бывают еще и непрерывны. Бинарные данные — это частный случай категориальных. Например, когда вы подбрасываете монетку, она может упасть орлом или решкой наверх. И у вас есть всего лишь два исхода, это бинарная переменная. Бывает так, когда у категориальной переменной категорий гораздо больше. Например, вы можете оплачивать товар картой, наличными или, например, использовать для этого телефон. Будет больше вариантов. Числовые переменные бывают счетными — тогда они дискретны, мы можем посчитать число работающих касс в супермаркете, можем посчитать число опечаток, приходящееся на страницу текста, и это будут какие-то дискретные значения. Всегда, когда мы считаем, мы получаем дискретную величину. Если мы что-то измеряем, часто бывает, что мы получаем величину непрерывную. Например, вес покупок может меняться. Конечно, он тоже в каком-то смысле дискретен, потому что дискретность будет зависеть от того, каким способом мы производим измерения. Расход воды по счетчику — это тоже более или менее непрерывная величина. Или температура воздуха, например. Могут быть любые более-менее значения. Каждая из таких переменных, она подчиняется какому-то своему теоретическому распределению. То есть распределение — это что-то, что существует «где-то там». Конкретные данные только подчиняются этому закону. Что такое распределение? Распределение — это вероятность возникновения разных значений. Оно описывается функцией, которая называется функцией распределения, или функцией плотности вероятности, или функция массы вероятности, в зависимости от того, с дискретной или с непрерывной величиной мы имеем дело. Бинарные переменные подчиняются биномиальному распределению, например. Перед вами распределение числа раз, когда выпадает орел, если вы бросаете честную монетку, то есть где вероятность выпадения орла 50 %. И вы видите, что самый частый вариант, самое частое значение, как раз когда из десяти подбрасываний в пяти случаях у вас выпал орел. Но мы живем в вероятностном мире, и вполне может сложиться такая ситуация, что вы десять раз подбросите монетку, и орел там выпадет только один раз или вообще ни одного раза. Такое тоже может быть, просто вероятность этого конкретного исхода, она очень низка. Так вот, собственно, функции распределения, они описывают, как эта вероятность меняется в зависимости от исхода. Счетные величины часто подчиняются распределению Пуассона, но есть и другие распределения, которые описывают такие данные. непрерывные величины могут подчиняться нормальному распределению, могут подчиняться какому-нибудь гамма-распределению. С некоторыми из таких распределений мы еще познакомимся в ходе нашего курса, когда будем обсуждать обобщенные линейные модели. А сейчас речь пойдет только о каких-то специальных распределениях, например, о нормальном распределении. Для описания распределений часто удобно пользоваться числовыми характеристиками. Мы можем описать форму распределения, описать, сколько у него вершин, — это называется модальность — описать его симметрию, можем описать наличие отскакивающих значений. Но чаще нас интересует положение центра и характеристики разброса этого распределения. И у разных теоретических распределений бывают параметры, которые описывают эти характеристики, а иногда еще какие-нибудь другие. Собственно, описательная статистика, она занимается тем, что описывает распределения. Самые популярные параметры распределений — это меры центральной тенденции и меры разброса, и они всегда используются в связке. Если вы характеризуете центр распределения, вам нужно знать его разброс, иначе это будет не очень информативно. То есть вам лучше какую-то интервальную оценку получать. И из связок есть две самых популярных, которые чаще всего используются. Мы можем пользоваться медианой и квантилями, а можем пользоваться средним или стандартным отклонением. Среднее и стандартное отклонения у всех на слуху, потому что это характеристики нормального распределения, которое часто используется в статистике.