В машинном обучении встречаются задачи, где нужно изучить структуру данных, найти в них скрытые взаимосвязи и закономерности. Например, нам может понадобиться описать каждого клиента банка с помощью меньшего количества переменных — для этого можно использовать методы понижения размерности, основанные на матричных разложениях. Такие методы пытаются сформировать новые признаки на основе старых, сохранив как можно больше информации в данных. Другим примером может служить задача тематического моделирования, в которой для набора текстов нужно построить модель, объясняющую процесс формирования этих текстов из небольшого количества тем.
Этот курс входит в специализацию ''Специализация Машинное обучение и анализ данных'
от партнера

Об этом курсе
Карьерные результаты учащихся
20%
25%
27%
Приобретаемые навыки
Карьерные результаты учащихся
20%
25%
27%
от партнера

Московский физико-технический институт
Московский физико-технический институт (Физтех) является одним из ведущих вузов страны и входит в основные рейтинги лучших университетов мира. Институт обладает не только богатой историей – основателями и профессорами института были Нобелевские лауреаты Пётр Капица, Лев Ландау и Николай Семенов – но и большой научно-исследовательской базой.

Яндекс
Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world.

E-Learning Development Fund
Фонд развития онлайн-образования (ФРОО) объединяет образовательные стартапы, проекты в области EdTech и запускает собственные онлайн-программы в области машинного обучения, программирования, мобильной разработки, VR, дизайна и IT. Мы выстраиваем экосистему для обучения на всех стадиях жизненного цикла: от идеи и поиска средств на производство образовательной программы до поддержки, продаж и маркетинга. А сотрудничество с крупнейшими образовательными платформами позволяет запускать онлайн-курсы с максимальным эффектом и пользой для всех заинтересованных сторон.
Программа курса: что вы изучите
Кластеризация
Добро пожаловать на курс "Поиск структуры в данных"! В этом курсе вы узнаете про задачи машинного обучения, в которых требуется не предсказать целевую переменную, а найти некоторые внутренние закономерности в данных — например, сгруппировать объекты по схожести, или определить наиболее важные признаки. В первом модуле мы изучим задачу кластеризации, направленную на поиск групп близких объектов. Вы узнаете про основные подходы к её решению, а также узнаете, как можно выбрать хороший алгоритм кластеризации, не имея правильных ответов.
Понижение размерности и матричные разложения
В предыдущем модуле мы обсуждали, как кластеризовать объекты, а в этом модуле займёмся признаками. Нередко возникают ситуации, в которых далеко не все признаки нужны для решения задачи — или же нужны все, но при этом их слишком много. В этом случае нужно перейти в новое признаковое пространство меньшей размерности. Для этого можно либо отбирать наиболее важные признаки, либо порождать новые на основе исходных — мы обсудим оба подхода. В частности, мы разберёмся с методом главных компонент, который используется в самых разных задачах машинного обучения. Затем мы перейдём к матричным разложениям — мы изучим несколько методов, позволяющих получить приближение исходной матрицы в виде произведения нескольких матриц меньшей размерности. Такая аппроксимация часто используется в задачах машинного обучения, например, для понижения размерности данных, восстановления пропущенных значений в матрицах и построения рекомендательных систем.
Визуализация и поиск аномалий
Добро пожаловать на третью неделю курса! В ней мы обсудим две задачи: обнаружение аномалий и визуализация данных. Обнаружение аномалий направлено на поиск объектов, которые являются особенными в некотором смысле. Например, это могут объекты с такими значениями признаков, которые далеки от имеющихся в обучающей выборке — вполне ожидаемо, что на таких объектах модель выдаст очень плохие прогнозы. Вы узнаете, как можно формально дать определение аномалий и с помощью каких методов можно решать задачу их поиска. Вторая задача, о которой мы поговорим — это визуализация, то есть отображение многомерной выборки в пространство размерности два или три. В теории визуализация близка к понижению размерности — но за счёт того, что нам нужно найти всего два или три признака, можно использовать очень сложные нелинейные методы.
Тематическое моделирование
Люди уже много веков сохраняют свои знания в виде книг, а крупнейшая на сегодняшний день коллекция информации — Интернет — состоит из огромного количества текстов. Тексты, по сути, являются наиболее популярным видом данных, и поэтому очень важно уметь искать в них закономерности. Тематическое моделирование — это способ семантического анализа коллекции текстовых документов. Тематическая модель позволяет для каждого документа найти темы, которые его описывают, и кроме того показывает, какие слова характеризуют ту или иную тему. Другими словами, мы находим более компактное представление большого набора текстов в виде нескольких тем. С математической точки зрения тематическая модель — это еще один вид матричного разложения, где в качестве исходной матрицы выступает матрица частот слов в документах. На четвертой неделе мы поговорим о том, где применяют тематические модели, какие они бывают, как их строить и как оценивать.
Рецензии
Лучшие отзывы о курсе ПОИСК СТРУКТУРЫ В ДАННЫХ
Отличный вводный курс, как и вся специализация. Доступно и понятно изложены все базовые вещи, которые могут потребоваться в повседневной деятельности в качестве data scientist.
Интересный курс, замечательные преподаватели. Есть моменты когда лекция довольно сложная, а тест простой, это оставляет тревожное ощущение недоученности :)
Отличный и интересный курс. Только устарело задание на BigArtm. Не актуально видео, установить библиотеку самому не тривиально.
Большая-большая работа. Спасибо преподавателям, МФТИ, Яндексу за возможность изучать предмет таким невероятно крутым способом
Специализация Машинное обучение и анализ данных: общие сведения
Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач.

Часто задаваемые вопросы
Когда я получу доступ к лекциям и заданиям?
Что я получу, оформив подписку на специализацию?
Is financial aid available?
Остались вопросы? Посетите Центр поддержки учащихся.