Об этом курсе
39,774

100% онлайн

Начните сейчас и учитесь по собственному графику.

Гибкие сроки

Назначьте сроки сдачи в соответствии со своим графиком.

Промежуточный уровень

Прибл. 25 часа на выполнение

Предполагаемая нагрузка: 4 недели обучения, через 3-5 часа / неделю...

Русский

Субтитры: Русский

Приобретаемые навыки

Topic ModelData Clustering AlgorithmsMachine LearningData Visualization (DataViz)

100% онлайн

Начните сейчас и учитесь по собственному графику.

Гибкие сроки

Назначьте сроки сдачи в соответствии со своим графиком.

Промежуточный уровень

Прибл. 25 часа на выполнение

Предполагаемая нагрузка: 4 недели обучения, через 3-5 часа / неделю...

Русский

Субтитры: Русский

Программа курса: что вы изучите

Неделя
1
7 ч. на завершение

Кластеризация

Добро пожаловать на курс "Поиск структуры в данных"! В этом курсе вы узнаете про задачи машинного обучения, в которых требуется не предсказать целевую переменную, а найти некоторые внутренние закономерности в данных — например, сгруппировать объекты по схожести, или определить наиболее важные признаки. В первом модуле мы изучим задачу кластеризации, направленную на поиск групп близких объектов. Вы узнаете про основные подходы к её решению, а также узнаете, как можно выбрать хороший алгоритм кластеризации, не имея правильных ответов....
15 видео ((всего 109 мин.)), 8 материалов для самостоятельного изучения, 5 тестов
15 видео
Как устроена специализация, и зачем ее проходить3мин
Структура уроков1мин
Задача кластеризации4мин
Примеры задач кластеризации5мин
Знакомство с методами кластеризации9мин
Пример: кластеризация текстов по теме13мин
Выбор метода кластеризации7мин
МФТИ1мин
Метод K средних (K-Means)10мин
Expectation Maximization (EM-алгоритм)9мин
Агломеративная иерархическая кластеризация12мин
Графовые методы кластеризации4мин
Методы, основанные на плотности6мин
Оценка качества и рекомендации по решению задачи кластеризации13мин
8 материала для самостоятельного изучения
Блокнот из примера кластеризации текстов20мин
Слайды к лекциям10мин
Конспект10мин
Немного о Yandex10мин
МФТИ10мин
Forum&Chat10мин
Слайды к лекциям10мин
Конспект10мин
4 практического упражнения
Знакомство с кластеризацией6мин
Введение в кластеризацию8мин
Некоторые методы кластеризации8мин
Подробнее о методах кластеризации12мин
Неделя
2
6 ч. на завершение

Понижение размерности и матричные разложения

В предыдущем модуле мы обсуждали, как кластеризовать объекты, а в этом модуле займёмся признаками. Нередко возникают ситуации, в которых далеко не все признаки нужны для решения задачи — или же нужны все, но при этом их слишком много. В этом случае нужно перейти в новое признаковое пространство меньшей размерности. Для этого можно либо отбирать наиболее важные признаки, либо порождать новые на основе исходных — мы обсудим оба подхода. В частности, мы разберёмся с методом главных компонент, который используется в самых разных задачах машинного обучения. Затем мы перейдём к матричным разложениям — мы изучим несколько методов, позволяющих получить приближение исходной матрицы в виде произведения нескольких матриц меньшей размерности. Такая аппроксимация часто используется в задачах машинного обучения, например, для понижения размерности данных, восстановления пропущенных значений в матрицах и построения рекомендательных систем....
15 видео ((всего 108 мин.)), 4 материалов для самостоятельного изучения, 5 тестов
15 видео
Одномерный отбор признаков8мин
Жадные методы отбора признаков6мин
Отбор признаков на основе моделей6мин
Понижение размерности4мин
Метод главных компонент: постановка задачи7мин
Метод главных компонент: решение6мин
Матричные разложения13мин
SGD и ALS5мин
Прогнозирование неизвестных значений в матрице6мин
Проблема отсутствия негативных примеров и implicit методы6мин
Вероятностный взгляд на матричные разложения5мин
Неотрицательные матричные разложения: постановка и решение10мин
Неотрицательные матричные разложения: функционалы и инициализация5мин
Обработка пропусков8мин
4 материала для самостоятельного изучения
Слайды к лекциям10мин
Конспект10мин
Слайды к лекциям10мин
Конспект10мин
4 практического упражнения
Отбор признаков6мин
Понижение размерности и отбор признаков14мин
Матричные разложения8мин
Неотрицательные матричные разложения10мин
Неделя
3
4 ч. на завершение

Визуализация и поиск аномалий

Добро пожаловать на третью неделю курса! В ней мы обсудим две задачи: обнаружение аномалий и визуализация данных. Обнаружение аномалий направлено на поиск объектов, которые являются особенными в некотором смысле. Например, это могут объекты с такими значениями признаков, которые далеки от имеющихся в обучающей выборке — вполне ожидаемо, что на таких объектах модель выдаст очень плохие прогнозы. Вы узнаете, как можно формально дать определение аномалий и с помощью каких методов можно решать задачу их поиска. Вторая задача, о которой мы поговорим — это визуализация, то есть отображение многомерной выборки в пространство размерности два или три. В теории визуализация близка к понижению размерности — но за счёт того, что нам нужно найти всего два или три признака, можно использовать очень сложные нелинейные методы....
8 видео ((всего 57 мин.)), 5 материалов для самостоятельного изучения, 5 тестов
8 видео
Параметрическое восстановление плотности9мин
Непараметрическое восстановление плотности8мин
Одноклассовый SVM5мин
Задача визуализации5мин
Многомерное шкалирование4мин
Метод t-SNE6мин
Визуализация данных в sklearn12мин
5 материала для самостоятельного изучения
Слайды к лекциям10мин
Конспект10мин
Визуализация данных в sklearn10мин
Слайды к лекциям10мин
Конспект10мин
4 практического упражнения
Восстановление плотности6мин
Поиск аномалий4мин
Методы SNE и t-SNE6мин
Визуализация14мин
Неделя
4
10 ч. на завершение

Тематическое моделирование

Люди уже много веков сохраняют свои знания в виде книг, а крупнейшая на сегодняшний день коллекция информации — Интернет — состоит из огромного количества текстов. Тексты, по сути, являются наиболее популярным видом данных, и поэтому очень важно уметь искать в них закономерности. Тематическое моделирование — это способ семантического анализа коллекции текстовых документов. Тематическая модель позволяет для каждого документа найти темы, которые его описывают, и кроме того показывает, какие слова характеризуют ту или иную тему. Другими словами, мы находим более компактное представление большого набора текстов в виде нескольких тем. С математической точки зрения тематическая модель — это еще один вид матричного разложения, где в качестве исходной матрицы выступает матрица частот слов в документах. На четвертой неделе мы поговорим о том, где применяют тематические модели, какие они бывают, как их строить и как оценивать. ...
14 видео ((всего 151 мин.)), 8 материалов для самостоятельного изучения, 6 тестов
14 видео
Постановка задачи тематического моделирования12мин
Базовые тематические модели и EM-алгоритм14мин
Регуляризация тематических моделей10мин
Мультимодальные тематические модели9мин
Внутренние критерии качества тематических моделей9мин
Внешние критерии качества тематических моделей16мин
Визуализация тематических моделей10мин
Тематические модели на практике11мин
Пример использования библиотеки gensim для построения тематической модели10мин
Установка BigARTM в Windows3мин
Установка BigARTM в Linux Mint2мин
Установка BigARTM в Mac OS-X3мин
Пример использования библиотеки BigARTM для построения тематической модели19мин
8 материала для самостоятельного изучения
Слайды к лекциям10мин
Конспект10мин
Ноутбук из демонстрации использования gensim10мин
Ноутбук из демонстрации использования BigARTM10мин
Слайды к лекциям10мин
Конспект10мин
Финальные титры10мин
Стань ментором специализации10мин
4 практического упражнения
Постановка задачи и базовые понятия6мин
Тематическое моделирование-18мин
Критерии качества тематических моделей6мин
Тематическое моделирование-26мин
4.7
Рецензии: 108Chevron Right

71%

начал новую карьеру, пройдя эти курсы

56%

получил значимые преимущества в карьере благодаря этому курсу

25%

стал больше зарабатывать или получил повышение

Лучшие рецензии

автор: PKMay 4th 2018

Отличный вводный курс, как и вся специализация. Доступно и понятно изложены все базовые вещи, которые могут потребоваться в повседневной деятельности в качестве data scientist.

автор: AAJan 9th 2017

Интересный курс, замечательные преподаватели. Есть моменты когда лекция довольно сложная, а тест простой, это оставляет тревожное ощущение недоученности :)

Преподаватели

Avatar

Константин Воронцов

доктор физико-математических наук, профессор
Кафедра интеллектуальных систем

О Московский физико-технический институт

Московский физико-технический институт (неофициально известный как МФТИ или Физтех) является одним из самых престижных в мире учебных и научно-исследовательских институтов. Он готовит высококвалифицированных специалистов в области теоретической и прикладной физики, прикладной математики, информатики, биотехнологии и смежных дисциплин. Физтех был основан в 1951 году Нобелевской премии лауреатами Петром Капицей, Николаем Семеновым, Львом Ландау и Сергеем Христиановичем. Основой образования в МФТИ является уникальная «система Физтеха»: кропотливое воспитание и отбор самых талантливых абитуриентов, фундаментальное образование высшего класса и раннее вовлечение студентов в реальную научно-исследовательскую работу. Среди выпускников МФТИ есть Нобелевские лауреаты, основатели всемирно известных компаний, известные космонавты, изобретатели, инженеры....

О Яндекс

Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world....

О специализации ''Машинное обучение и анализ данных'

Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач. В рамках специализации вы освоите основные темы, необходимые в работе с большим массивом данных, в т.ч. современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, базовая фундаментальная математика, основы программирования на Python. Мы разберём, как построить рекомендательную систему, оценить эмоциональную окраску текста, спрогнозировать спрос на товар, оценить вероятность клика по рекламе и т.д. В финале вам потребуется выполнить проект собственной системы, решающей любую актуальную для бизнеса задачу. Результатом будет наглядная работающая модель, которую вы сможете использовать в вашей повседневной работе или продемонстрировать на собеседовании. Все, прошедшие специализацию, могут принять участие в Программе трудоустройства. Если вы заинтересованы в новых проектах, новых перспективах и возможностях - пройдите обучение по Специализации и подайте заявку....
Машинное обучение и анализ данных

Часто задаваемые вопросы

  • Зарегистрировавшись на сертификацию, вы получите доступ ко всем видео, тестам и заданиям по программированию (если они предусмотрены). Задания по взаимной оценке сокурсниками можно сдавать и проверять только после начала сессии. Если вы проходите курс без оплаты, некоторые задания могут быть недоступны.

  • Записавшись на курс, вы получите доступ ко всем курсам в специализации, а также возможность получить сертификат о его прохождении. После успешного прохождения курса на странице ваших достижений появится электронный сертификат. Оттуда его можно распечатать или прикрепить к профилю LinkedIn. Просто ознакомиться с содержанием курса можно бесплатно.

Остались вопросы? Посетите Центр поддержки учащихся.