Обучение на размеченных данных или обучение с учителем – это наиболее распространенный класс задач машинного обучения. К нему относятся те задачи, где нужно научиться предсказывать некоторую величину для любого объекта, имея конечное число примеров. Это может быть предсказание уровня пробок на участке дороги, определение возраста пользователя по его действиям в интернете, предсказание цены, по которой будет куплена подержанная машина.
от партнера

Об этом курсе
Карьерные результаты учащихся
32%
48%
42%
Приобретаемые навыки
Карьерные результаты учащихся
32%
48%
42%
от партнера

Московский физико-технический институт
Московский физико-технический институт (Физтех) является одним из ведущих вузов страны и входит в основные рейтинги лучших университетов мира. Институт обладает не только богатой историей – основателями и профессорами института были Нобелевские лауреаты Пётр Капица, Лев Ландау и Николай Семенов – но и большой научно-исследовательской базой.

Яндекс
Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world.

E-Learning Development Fund
Фонд развития онлайн-образования (ФРОО) объединяет образовательные стартапы, проекты в области EdTech и запускает собственные онлайн-программы в области машинного обучения, программирования, мобильной разработки, VR, дизайна и IT. Мы выстраиваем экосистему для обучения на всех стадиях жизненного цикла: от идеи и поиска средств на производство образовательной программы до поддержки, продаж и маркетинга. А сотрудничество с крупнейшими образовательными платформами позволяет запускать онлайн-курсы с максимальным эффектом и пользой для всех заинтересованных сторон.
Программа курса: что вы изучите
Машинное обучение и линейные модели
Добро пожаловать на курс "Обучение на размеченных данных"! В этом модуле вы узнаете, что такое машинное обучение, какие в нём бывают постановки задачи, и что особенного в обучении на размеченных данных. Затем вы изучите один из основных способов решения задач обучения на размеченных данных — предсказание с помощью линейных моделей. Мы обсудим, как их настраивать и применять в задачах регрессии и классификации. В практических заданиях вы поработаете с настоящими данными и узнаете, какие проблемы в них можно обнаружить, а также попробуете делать прогнозы при помощи линейных моделей.
Борьба с переобучением и оценивание качества
Вторая неделя нашего курса будет посвящена общим вопросам, с которыми приходится столкнуться в любой задаче анализа данных. Вы узнаете, что такое проблема переобучения, из-за чего она возникает, как её можно обнаружить и как с ней бороться — в частности, вы познакомитесь с кросс-валидацией, с помощью которой можно оценить способность алгоритма давать хорошие предсказания на новых данных. Далее речь пойдёт о метриках качества — без них невозможно понять, подходит ли алгоритм для решения той или иной задачи. Наконец, вы познакомитесь с библиотекой scikit-learn, которая является одним из основных инструментов современных специалистов по анализу данных.
Линейные модели: классификация и практические аспекты
Добро пожаловать на третью неделю курса! Вы уже поработали с линейными моделями, научились измерять их качество и устранять переобучение с помощью регуляризации. Пришло время разобраться, почему регуляризация действительно помогает уменьшить сложность модели или произвести отбор признаков — об этом пойдёт речь в первом уроке. Там же вы познакомитесь с логистической регрессией, которая является одним из наиболее популярных методов для решения задач классификации. Далее вы узнаете о некоторых важных нюансах работы с линейными моделями: масштабировании признаков, переходе в новые признаковые пространства и т.д. Мы не только расскажем обо всём этом, но и покажем, как оно работает в Python и библиотеке scikit-learn.
Решающие деревья и композиции алгоритмов
Линейные модели — очень важный и полезный, но слишком простой класс алгоритмов в машинном обучении; не во всех задачах они позволяют добиться желаемого качества. В этом модуле вы познакомитесь с новым семейством алгоритмов — решающими деревьями. Они во многом являются полной противоположностью линейных моделей. В частности, сами по себе они очень сложны и подвержены переобучению. При этом оказывается, что если объединить много деревьев в одну сложную модель, то можно получить очень качественное решение. Об этом крайне важном подходе — построении композиций решающих деревьев — мы в основном и будем говорить на этой неделе.
Рецензии
Лучшие отзывы о курсе ОБУЧЕНИЕ НА РАЗМЕЧЕННЫХ ДАННЫХ
Один из лучших курсов по обучению на размеченных данных. Немного расстраивали несбалансированность сложности домашних заданий и промежуточных проверок правильности подготовки данных в заданиях.
Лекции и задаение по нейронным сетям - низкого качества, лучше убрать из курса и сделать ссылки на такие статьи, как: https://habrahabr.ru/post/312450/\n\nhttps://habrahabr.ru/post/313216/
Очень интересный и более сложный курс по сравнению с предыдущим! Но!! Хотелось бы обновлений и дополнений по нейросетям (мало информации), а также не затронут TensorFlow, что не очень хорошо!
Курс просто фантастика. Отличное преподавание, много нового. Столько что еще переваривать и переваривать. Немного сжата последняя неделя и на нейронные сети нужно больше времени. Спасибо.
Специализация Машинное обучение и анализ данных: общие сведения
Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач.

Часто задаваемые вопросы
Когда я получу доступ к лекциям и заданиям?
Что я получу, оформив подписку на специализацию?
Is financial aid available?
Остались вопросы? Посетите Центр поддержки учащихся.