[МУЗЫКА] [МУЗЫКА] [ШУМ] Добро пожаловать на вторую неделю нашего курса. В первой неделе вы уже много говорили о теоретических распределениях, о том, как в теории ведут себя случайные величины, как они могут быть распределены, какими параметрами они характеризуются, какими свойствами обладают, и вы даже научились угадывать, пообедает или нет девушка из колл-центра, которой нужно совершить в течение дня определенное количество звонков. На этой неделе мы продолжим вот этот вот сдвиг в сторону практики, и мы поговорим о данных, о выборках, о том, как эти данные могут храниться, как эти данные могут кодироваться, что вообще может быть данными, как выглядит матрица данных и какими [НЕРАЗБОРЧИВО] мы можем кодировать окружающий нас мир. По большому счету в мире большое количество разных величин, но то, как мы их можем кодировать, у нас очень ограниченный репертуар этого всего. Сейчас вы на экране видите классическую матрицу данных, матрица «объект-признак». И если вы когда-нибудь работали хоть в какой-нибудь программе по анализу данных, будь то Excel, SPSS или какая-нибудь другая, вам такое представление данных знакомо. По строкам у нас располагаются объекты. Объектами для меня, как для социолога, как правило, являются люди, то есть мы разговариваем с человеком, и человек отвечает на вопросы, и строчка — это, собственно, тот человек, который отвечал на вопросы. Это совершенно необязательно люди. Это могут быть какие-то обобщенные группы, могут быть регионы, семьи, города, еще что-нибудь. Также могут быть и действия пользователей в сети, например — объектом может быть все, что угодно. Это та единичка, которая находится в фокусе нашего анализа. Признаками, или столбцами, являются характеристики этих единиц. То есть здесь, если мы, например, говорили с человеком, объект (строчка) — это человек, столбик — это вопросы, на которые он отвечал. То есть это какие-то свойства вот тех объектов, которые нас интересуют. И свойства эти мы можем кодировать по-разному. Давайте немножечко подробнее разберемся как. В самом общем виде данные можно делить на количественные и качественные. Количественные, как следует из названия — это данные, в которых цифры имеют математическое значение, они оценивают количество какой-то характеристики. Качественные — здесь немножечко другая история. Качественные переменные — это переменные, которые отражают свойство или качество наших объектов. И цифры здесь значат уже не сами себя, как в количественном случае, а они означают какие-то качества или свойства объектов. То есть они служат маркерами каких-то категорий, которые нас интересуют. Например, нас интересует, допустим, мы сравниваем жаворонков или сов, утренних или вечерних людей, еще что-нибудь. Можем жаворонков кодировать единицей, сов кодировать двойкой, единица и двойка не будут значить ничего кроме того, что они обозначают вот эти вот категории, которые находятся в центре нашего анализа. Давайте разберемся подробнее. Качественные переменные у нас бывают номинальными и порядковыми, а количественные переменные у нас бывают дискретными или непрерывными. Давайте немножечко подробнее разберемся, что значит каждый из этих видов. Начнем с номинальных переменных, это самая базовая, самая простая шкала. Единственная информация, которую она содержит — это информация о принадлежности объекта к какому-то классу. К примеру, мы изучаем людей, которые любят утром вставать или совсем не любят этого делать (жаворонки или совы), или мы изучаем людей, живущих в разных частях света: в Австралии, в Америке, в России, где угодно. Или мы изучаем людей с разным цветом глаз по какой-то причине: голубоглазых, зеленоглазых, кареглазных. Это все будут номинальные переменные. То есть это разные люди, но при этом никакого порядка в этих значениях нет. Как вы видите на экране, это вот кубики, которые как-то расположены в пространстве, без какого-то видимого организующего принципа. Порядковые переменные выгодно отличаются от номинальных тем, что отношения порядка появляется. То есть здесь у нас значения не только разделяют объекты на классы, но и определенным образом упорядочивают их. К примеру, если мы изучаем уровень счастья в разных странах и задавали вопрос «Насколько вы счастливы?», измеряли это по девятибалльной шкале, где 9 — это максимальный уровень счастья, самый счастливый, а 1 — минимальный уровень, самый несчастный. И в таком случае мы совершенно точно можем сказать, что человек, выбравший 9, гораздо счастливей, чем человек, выбравший тройку. При этом мы не можем сказать насколько, но можем сказать совершенно точно, что 9 — это счастливее, чем 3. Дальше, когда мы переходим к количественным шкалам, здесь у нас уже цифры значат сами себя. То есть здесь нет никаких дополнительных слов: 1 — это 1, 5 — это 5, 100 — это 100. Дискретные и непрерывные — это про что? Дискретная шкала — это та шкала, которая количественная, но она не занимает все пространство, то есть примером может быть, например, количество детей в семье. У нас может быть 1 ребенок, 3 ребенка, 5 детей и даже 10, но их не может быть полтора или 3.75. То есть это вот какие-то точечные значения цельные, например. Непрерывная шкала — это та шкала, которая уже занимает все пространство, может принимать любые значения, от −∞ до +∞, скажем, может быть, конечно, дробной. То есть то же время мы можем измерять в днях, в часах, в секундах, в миллисекундах и дальше, те же доходы мы можем измерять в миллионах, в тысячах, в копейках, в чем-то еще, и это будет вот непрерывная дискретная шкала, которая будет определена на всем протяжении возможных значений. Это накладывает на нас множество ограничений, которые нам понадобятся в течение курса, давайте все-таки их немножечко обобщим. Вот сейчас на экране видно, вот это вот концентрические круги, в центре которых находится номинальная шкала. В центре она не потому, что она самая главная, а потому что она содержит минимум информации, она самая базовая. Единственная, единственная информация, которая в ней содержится — это принадлежность объектов к определенным группам. Порядковая шкала содержит ту же информацию, что номинальная, то есть принадлежность группам сохраняется, но кроме этого у нас появляется еще и отношение порядка между значениями. Интервальная шкала опять содержит все, что внутри, то есть и то, что содержит номинальная, и то, что содержит порядковая, плюс цифры означают сами себя, и кроме порядка у нас определено еще и расстояние между значениями. То есть мы не просто знаем, что 2 — это меньше, чем 4, но мы знаем, что 2 меньше, чем 4 ровно на 2. И 4 меньше на 6 ровно на те же 2. И это имеет ряд важных следствий. Давайте для начала это зафиксируем, и вернемся к нашему массиву данных, на который мы смотрели в самом начале лекции. Это фрагмента массива данных РМЭПЗ (Российского мониторинга экономического положения и здоровья), который вот на экране показано, где и кем собирается. Это уникальная база данных, рекомендую вам ознакомиться с ней и почитать о ней поподробнее. То есть на экране мы видим сейчас несколько переменных, и давайте разберемся, к какому классу они принадлежат. Вот, допустим, переменная «Семейное положение». Эта переменная — номинальная. Почему? Потому что у нас, очевидно, есть несколько классов объектов. Люди могут быть там никогда не состоявшими в браке, состоящими в браке сейчас, разведенными, вдовами и так далее. При этом разведенный человек может вступить в брак заново, вступивший в брак человек может развестись, и все, что угодно может произойти, то есть эти классы, в общем-то, никак между собой не упорядочены — номинальная переменная. И, предположим, переменная «Удовлетворенность жизнью», самый правый столбик. Здесь мы уже, конечно, мы видим, что люди делятся на более или менее или совсем неудовлетворенных, но при этом между этими значениями определенно есть порядок. То есть какие-то люди более довольны тем, как они живут, какие-то люди, в общем-то, сравнительно недовольны тем, как они живут. Или посмотрим на переменную дохода, доход измерен в рублях. Это непрерывная количественная переменная, с которой мы можем производить любые арифметические манипуляции, которые только можно. Попробуйте определить, к какому типу переменных относится переменная «Количество подчиненных», которая расположена в третьем столбике справа. Сейчас просто зафиксируем, что то, какого типа у нас переменная, накладывает существенное ограничение на то, что мы можем делать с этой переменной. Запомним это и вернемся к этому неоднократно, а о том, как можно исследовать распределение признаков, измеренных каждой шкалой, поговорим в следующих лекциях.