[МУЗЫКА] [МУЗЫКА] [ШУМ] Здравствуйте! Мы очень радует, что вы заинтересовались нашей специализацией, и в этой лекции я вам коротко расскажу о том, что вас ждет, если вы решите с нами поучиться. Специализация посвящена статистическому анализу данных и состоит из четырех курсов, каждый из которых, с одной стороны, завершенная вещь, то есть он рассматривает определенный класс задач и завершается проектом, где вы сможете своими руками что-то поделать на реальных данных и закрепить полученные в курсе знания. С другой стороны, все-таки расположены немножко по уровню сложности. Если первый курс — самый базовый, то второй, третий и четвертый как бы немножечко посложнее. Давайте я коротко расскажу вам про каждый из курсов, что будет, собственно, внутри. Первый курс будет полезен тем из вас, чей опыт работы с данными, может быть, не очень большой или если вы неуверенно чувствуете себя в основах и хотели бы их закрепить. Здесь мы говорим о теории вероятности, об основах, о случайных величинах и признаках, о характеристиках распределений. Дальше мы говорим об основах математической статистики и говорим о мерах центра и вариативности. И, конечно же, говорим о том, как визуализировать распределения и немножечко о графическом анализе данных. В завершение мы поговорим еще и о выборках: о том, как грамотно строить выборки, о том, как гарантировать корректную процедуру отбора, какие возможности и ограничения следуют из разных логик отбора и, конечно же, о том, как работать с неопределенным, нетипичными или отсутствующими данными — так тоже бывает. Если первый курс — описательный, то второй — здесь мы уже переходим к статистике. Здесь мы начинаем с проверки статистических гипотез, что такое гипотеза, как их проверять, какие бывают критерии, какая логика, какие принципы. И затем вот эту вот теорию начинаем разворачивать на рассмотрение конкретных инструментов, как исследовать взаимосвязи линейные-нелинейные. И в завершение посмотрим на то, как можно не только исследовать взаимосвязи, но и прогнозировать значение одного признака, зная значение других. То есть мы поговорим о корреляциях, таблицах сопряженности, линейных регрессиях. И если вам интересно узнать, например, связаны ли счастье и богатство, или связана ли активность пользователя с днем недели или с временем года, или вы хотите узнать, способствует ли наличие страницы в социальных сетях популярности корпоративного сайта, то вот за такого рода вопросами — вам во второй курс, приходите, пожалуйста. Третий курс касается сравнения и формирования групп. И здесь у нас есть тоже как бы две содержательных части. В первой части мы говорим о сравнении групп или категорий, мы говорим о критериях параметрических и непараметрических, о возможностях и ограничениях. И если вас интересуют вроде вопросы, по разному ли ищут работу в городе или различаются ли регионы или целевые группы по доходу, возрасту или социально-демографическому составу, то вам сюда. Здесь мы подробнее поговорим о классах задач и о способах их решения. Вторая половина третьего курса посвящена уже формированию групп. Если в первом случае мы знаем, что группы существуют и сравниваем их характеристики, то во втором случае мы говорим о том, что, возможно, есть какая-то структура в наших данных, о которой мы не уверены, но мы подозреваем, что она есть. И мы пытаемся выявить эти группы, допустим, людей, или университетов, или компаний, или еще чего-то, или рубрик по сходных характеристиках, которыми эти объекты обладают. И мы поговорим об основных алгоритмах кластеризации, посмотрим, как строить кластеры, как их описывать и как понимать, что же за группы, собственно, получились. И четвертый курс, он такой условно самый сложный. И здесь мы поговорим об анализе трендов и о применении классификаторов. Тренды — это про что? Тренды — это, в общем-то, слово популярное, и здесь мы рассматриваем, допустим, такие вопросы, как растут ли наши продажи, или стабилен ли приток клиентов, тенденция ли это или случайность, есть ли какие-то сезонные закономерности в том, как развивается показатель, который нас интересует, как выявить эти тренды, как описать и как понять, что за ними стоит. Также в этом курсе мы поговорим о факторном анализе, который позволяет узнать, есть ли какие-нибудь скрытые переменные за проявлением каких-то вот мелких видимых характеристик, понять, как найти эти переменные, понять, как описать, что за ними стоит, и как интерпретировать то, что, собственно, получается. И завершение поговорим о классификаторах. Классификаторы позволяют нам отнести объект к той или иной категории с заданной вероятность, исходя из нашего знания о некоторых характеристиках этого объекта. Например, отдаст заемщик кредит или нет, закончит студент курс или нет, сработает лекарство или нет и вот такие вот прочите задачи — мы поговорим об основных методах, о простых классификаторах. К примеру, мы рассмотрим деревья решений, как они устроены и как они помогают в принятии решений. Мы поговорим о простых бинарных классификаторах, о логистической регрессии и на данных построим модель, которая позволит нам классифицировать и прогнозировать. Также, что важно: в конце каждого у нас будут не только теоретические, но и практические лекции, и вам будут предложены видео, в которых будет показано, как на практике решать то, что мы рассматриваем в двух продуктах: при помощи SPSS и при помощи R. Насколько мне известно, во многих университетах, по крайней мере социологам, анализ данных преподают с применением SPSS — в МГУ это по крайней мере так. Если в вашей организации есть этот пакет или если вы хотите им овладеть, то вы сможете пойти по SPSS-ному треку и попробовать посмотреть эти практические видео. SPSS — это, к сожалению, платный продукт, ну как к сожалению? Реальность такова. Но есть бесплатная версия, 14-дневная, которую вы можете, зарегистрировавшись на сайте, скачать — в материалах курса есть инструкция, как это делать — и попрактиковаться. Но, поскольку срок жизни бесплатной версии достаточно короткий, лучше устанавливать ее поближе к тому моменту, когда вы решите делать практические задания. Ну и R — второй продукт, второй инструмент, это, наверное, самый или по крайней мере один из самых распространенных способов анализа сейчас, и он бесплатный. И при помощи R вы можете анализировать данные в любом месте практически без дополнительных финансовых затрат. Правда, он потребует от вас некоторой дополнительной подготовки, материалы для которой мы, разумеется, предоставим. Для R есть большое количество сред, R-Studio, к примеру, ставится или еще что-то. Мы будем показывать практику на Jupiter-notebooks, и также вы сможете практиковаться, прямо не выходя из курса, прямо в среде курса решать какие-то задачки, который мы будем разбирать на лекциях. Итак, Вот такая наша специализация. Добро пожаловать! Еще раз спасибо большое за интерес к нашей специализации, и мы уже с нетерпением ждем возможности поработать с вами и пообщаться с вами на форуме.