[МУЗЫКА] [МУЗЫКА] Здравствуйте, мы очень рады, что вы заинтересовались нашей специализацией, и в этой лекции я вам коротко расскажу о том, что вас ждет, если вы решите с нами поучиться. Специализация посвящена статистическому анализу данных и состоит из четырех курсов, каждый из которых, с одной стороны, завершенная вещь, то есть он рассматривает определенный класс задач и завершается проектом, где вы сможете своими руками что-то поделать на реальных данных и закрепить полученные в курсе знания. С другой стороны, все-таки они расположены немножко по уровню сложности, если первый курс самый базовый, то второй, третий и четвертый как бы немножечко посложнее. Давайте я коротко расскажу вам про каждый из курсов, что будет, собственно, внутри. Первый курс будет полезен тем из вас, чей опыт работы с данными, может быть, не очень большой, или если вы неуверенно чувствуете себя в основах и хотели бы их закрепить. Здесь мы говорим о теории вероятности, об основах, о случайных величинах и признаках, о характеристиках распределений, дальше мы говорим об основах математической статистики, говорим о мерах и центре вариативности, ну, и, конечно же, говорим о том, как визуализировать распределение, и немножечко о графическом анализе данных. В завершение мы поговорим еще и о выборках, о том, как грамотно строить выборки, о том, как гарантировать корректную процедуру отбора, какие возможности и ограничения следуют из разных логик отбора, и, конечно же, о том, как работать с неопределенными, нетипичными или отсутствующими данными, так тоже бывает. Если первый курс описательный, то второй — здесь мы уже переходим к статистике. Здесь мы начинаем с проверки статистических гипотез, что такое гипотеза, и как их проверять, какие бывают критерии, какая логика, какие принципы, и затем вот эту вот теорию начинаем разворачивать на рассмотрении конкретных инструментов: как исследовать взаимосвязи линейные, нелинейные, и в завершение посмотрим на то, как можно не только исследовать взаимосвязи, но и прогнозировать значение одного признака, зная значения другие. То есть мы поговорим о корелляции, о таблицах сопряженности, о линейных регрессиях. Если вам интересно узнать, например, связаны ли счастье и богатство, или связана ли активность пользователя с днем недели или со временем года, или вы хотите узнать, способствует ли наличие страницы в социальных сетях популярности корпоративного сайта, то вот за такого рода вопросами вам во второй курс. Приходите, пожалуйста. Третий курс касается сравнения и формирования групп. И здесь у нас есть тоже как бы две содержательных части. В первой части мы говорим о сравнении групп или категорий. Мы говорим о критериях, параметрических и непараметрических, о возможностях и ограничениях, и если вас интересуют вроде вопросы, по-разному ли ищут работу в городе или на селе, или различаются регионы или целевые группы по доходу, возрасту или социально-демографическому составу, то вам сюда. Здесь мы подробнее поговорим о классах задач и о способах их решения. Вторая половина третьего курса посвящена уже формированию групп. Если в первом случае мы знаем, что группы существуют, и сравниваем их характеристики, то во втором случае мы говорим о том, что, возможно, есть какая-то структура в наших данных, в которой мы не уверены, но мы подозреваем, что она есть. И мы пытаемся выявить эти группы, допустим, людей, или университетов, или компаний, или еще чего-то или рубрик, по сходным характеристикам, которыми эти объекты обладают. И мы поговорим об основных алгоритмах кластеризации, посмотрим, как строить кластеры, как их описывать и как понимать, что же за группы, собственно, получились. Ну, и четвертый курс. Он такой условно самый сложный, и здесь мы поговорим об анализе трендов и о применении классификаторов. Тренды — это про что? Тренды — это в общем-то слово популярное, и здесь мы рассматриваем, допустим, такие вопросы, как растут ли наши продажи или стабилен ли приток клиентов, тенденция это или случайность, есть ли какие-то сезонные закономерности в том, как развивается показатель, который нас интересует, как выявить эти тренды, как описать и как понять, что за ними стоит. Также в этом курсе мы поговорим о факторном анализе, который позволяет узнать, есть ли какие-нибудь скрытые переменные за проявлением каких-то вот мелких видимых характеристик. Понять, как найти эти переменные, понять, как описать, что за ними стоит, и как интерпретировать то, что, собственно, получается. Ну, и в завершении поговорим о классификаторах. Классификаторы позволяют нам отнести объект к той или иной категории с заданной вероятностью, исходя из нашего знания о некоторых характеристиках этого объекта. Ну, вот, например, отдаст кредит заемщик или нет, закончит студент курс или нет, сработает лекарство или нет, и вот такие вот прочие задачи, мы поговорим об основных методах, о простых классификаторах. К примеру, мы рассмотрим деревья решений, как они устроены и как они помогают в принятии решений, мы поговорим о простых бинарных классификаторах, о логистической регрессии и на данных построим модель, которая позволит нам классифицировать и прогнозировать. Также, что важно, в конце каждого курса у нас будут не только теоретические, но и практические лекции, и вам будут предложены видео, в которых будет показано, как на практике решать то, что мы рассматриваем в двух продуктах — при помощи SPSS и при помощи R. Насколько мне известно, во многих университетах, по крайней мере социологам, анализ данных преподают с применением SPSS. В МГУ это, по крайней мере, так. Если в вашей организации есть этот пакет или если вы хотите им овладеть, то вы сможете пойти по SPSS-треку и попробовать посмотреть эти практические видео. SPSS — это, к сожалению, платный продукт. Ну, как к сожалению? Реальность такова. Но есть бесплатная версия 14-дневная, которую вы можете, зарегистрировавшись на сайте, скачать. В материалах курса есть инструкция, как это делать. И попрактиковаться. Но, поскольку срок жизни бесплатной версии достаточно короткий, лучше устанавливать ее поближе к тому моменту, когда вы решите делать практические задания. Ну, и R, второй продукт, второй инструмент, это, наверное, самый, или, по крайней мере, один из самых распространенных методов или способов анализа данных сейчас, и он бесплатный, и при помощи R вы можете анализировать данные в любом месте практически без дополнительных финансовых затрат. Правда, он потребует от вас некоторой дополнительной подготовки, материалы для которой мы, разумеется, предоставим. Для R есть большое количество сред. R-студио, к примеру, ставится или еще что-то. Мы будем показывать практику на Юпитер-ноутбукс, и также вы сможете практиковаться, прямо не выходя из курса, прямо в среде курса, решать какие-то задачки, которые мы будем разбирать на лекциях. Итак, вот такая наша специализация. Добро пожаловать. Еще раз спасибо большое за интерес к нашей специализации, и мы уже с нетерпением ждем возможности поработать с вами и пообщаться с вами на форуме.