Теперь мы поработаем в R с данными RLMS, это Российский мониторинг экономического состояния и здоровья населения. Проще всего найти его данные, набрав в «Гугле» hse rlms. И первая ссылка, которая получится, — это ссылка на проводимый при участии Высшей школы экономики, соответственно, Российский мониторинг экономического положения и здоровья населения. Нам, во-первых, потребуются сами данные его. Это исследование проводится ежегодно, каждый год проводится очередная волна исследования. Например, 21-я волна — это 2012-й год. Соответственно, есть обследования домохозяйств, то есть семей, и есть обследования отдельных индивидов. Давайте для примера скачаем данные по индивидам. Если вы кликните, то после простой регистрации, где надо там указать фамилию, имя, «имейл», вы сможете скачать набор данных. И кроме набора данных также потребуется описание переменных, потому что в наборе данных около 10-ти тысяч наблюдений и 1000 переменных — от расходов на картошку до владения мобильным телефоном и холодильником, то, соответственно, описание переменных обязательно понадобится. Вот я, соответственно, смотрю Волна 21 «Описание файла данных по индивидам». Если я кликну, это такой здоровый .pdf-файл, и вот здесь описание подробное каждой переменной. Если она дискретная, качественная и принимает какой-то ограниченный список значений, значит, тут указан список соответствующих кодов и их значений. Например, переменная qh5 (Пол респондента): 1 — мужской, 2, соответственно, женский. Теперь перейдём к загрузке данного набора данных в R. Соответственно, давайте для удобства начнём с чистого листа. Выберем файл. File, new File, R Script. И, соответственно, загрузим заготовку с активации всех пакетов: Open File, lab_02_before.R. Соответственно, здесь быстренько загрузим все необходимые пакеты, то есть выделим весь текст и нажмём Ctrl плюс Enter или Command плюс Enter. Соответственно, здесь я хочу обратить внимание, что все пакеты устанавливаются с официального репозитория, кроме пакета rlms. Пакет rlms, надо сказать, что он устанавливается особенно. Если вы стандартным образом вот так установить можете через Tools, Install Packages, пакет devtools, то после этого вы можете написать, чтобы установить пакет rlms: devtools::install_github и в кавычках набрать специальный репозиторий, где находится пакет rlms. То есть если у меня команда library("rlms") дала ошибку, то с помощью devtools::install_github("bdemeshev/rlms") я могу его установить. Теперь перейдём собственно к загрузке данных. Мы предполагаем, что скачанный файл rlms находится в той же папке, что и lab_02_before.R. Если это предположение выполнено, тогда мы можем установить рабочую папку: Session, Set Working Directory, To Source File Location. Соответственно, мы укажем R, что файлы надо загружать из той же папки, что и исходный файл. И, указав это, после этого мы можем загрузить в набор данных h данные rlms: специальная команда read.rlms и в кавычках указываем имя файла. Наш файл называется "r21i_os24a". Опять же я не набирал имя рукам, а нажал tab и выбрал появляющийся вариант из списка. Нажимаем Ctrl+Enter. И тут придётся немножко подождать, потому что формат данных SPSS не является «родным» для R, поэтому он выполняет преобразование. Соответственно, после того как данные загрузились... Во-первых, для ускорения работы мы их можем сохранить в «родном» для R формате. То есть чтобы не ждать так долго каждый раз, я могу, например, сохранить данные в формате Rds, saveRDS. Тут написать набор данных h и тут написать то же самое название файла, только поставить расширение Rds. Cоответственно, эта операция уже занимает меньше времени, и чтение данных из формата Rds тоже занимает меньше времени, чем из чужого, из формата SPSS. И, соответственно, перейдём к анализу данных, простому, хотя бы на уровне графиков. Во-первых, надо сказать, что там 10 000 наблюдений и 1000 переменных. Вся тысяча переменных, скорее всего, вам не нужна. Давайте, на примере, мы отберём в набор данных h2, мы отберём некоторые переменные. Отберём, скажем, из набора данных h переменные qm1, qm2 — это рост и вес, qh6 — это год рождения и qh5 — это пол. Откуда я взял эти сокращения? Из, соответственно, pdf-фала с описанием данных. Соответственно, теперь я могу посмотреть на мои переменные describe(h2). Давайте посмотрим на описание данных. Видно, что qm1 — это, действительно, рост. Вот средний 66 килограммов, qm2 — это рост, 160, qh6 — это, соответственно, год рождения и qh5 — это пол. Соответственно, мы можем, во-первых, переименовать переменные. Давайте, h3, rename. Переименуем из набора данных, скажем, ves=qm1, rost=qm2, соответственно, пол, sex=qh5, и год рождения, давайте, b_year=qh6. Соответственно, создали набор данных h3. Ну можно, например, перейти от переменной «год рождения» к переменной «возраст». Как это сделать? Мы можем набор h3 поменять, использовать команду mutate и создать переменную, которая равна vozrast. Соответственно, что такое vozrast? Это год опроса, 2012-й мы брали, минус год рождения, переменная b_year. Соответственно, теперь если посмотреть на наши переменные, у нас получается: переменная vozrast, — вот максимальный возраст в нашем наборе данных 101 год, а средний возраст равен примерно 40 годам. Помимо отбора переменных, мы можем столкнуться с отбором наблюдений. Давайте посмотрим описание переменной пол, что это за переменная: summary(h3$sex). Соответственно, она принимает два значения: мужской и женский. И мы можем, например, построить выборку одних мужчин h4. Мы на этот раз отберём не переменные, а отберём наблюдения. Мы будем использовать другую команду, не select, а filter. Соответственно, используем команду filter из набора данных h3, выбираем те переменные, где переменная sex=мужской. Соответственно, h4, вот если посмотреть сюда наверх, можно обратить внимание, что из 17 090 наблюдений у нас оказались отобранными 7 300 с хвостиком наблюдений. И, например, мы можем построить какой-нибудь график. Например, мы можем по набору данных h4, возьмём данные из набора данных h4, пишем data=h4, и отложим по горизонтали рост мужчины, по вертикали вес мужчины. И, соответственно, получим вот такой вот интересный график, который нам показывает, что сначала, когда человек растёт, у него растут и рост, и вес, а потом, когда человек достигает определённого возраста, уже рост и вес практически не меняются. И точно так же можно построить какую-нибудь гистограмму: qplot(data=h4). И посмотреть на гистограмму веса мужчин в России. Соответственно, поскольку здесь в выборке есть и дети, и взрослые, мы не разделяли по возрасту, то вот видно два «горба», и вот видно, у взрослых средний вес примерно где-то чуть больше, наверно, порядка 70 вот здесь, 80, может, килограммов.