Об этом курсе

Недавно просмотрено: 52,910

Карьерные результаты учащихся

33%

начал новую карьеру, пройдя эти курсы

56%

получил значимые преимущества в карьере благодаря этому курсу

33%

стал больше зарабатывать или получил повышение
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Продвинутый уровень
Прибл. 26 часов на выполнение
Английский

Карьерные результаты учащихся

33%

начал новую карьеру, пройдя эти курсы

56%

получил значимые преимущества в карьере благодаря этому курсу

33%

стал больше зарабатывать или получил повышение
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Продвинутый уровень
Прибл. 26 часов на выполнение
Английский

от партнера

Placeholder

Национальный исследовательский университет "Высшая школа экономики"

Программа курса: что вы изучите

Оценка контентаThumbs Up82%(2,283 оценки)Info
Неделя
1

Неделя 1

5 ч. на завершение

Intro: why should I care?

5 ч. на завершение
14 видео ((всего 85 мин.)), 6 материалов для самостоятельного изучения, 3 тестов
14 видео
Why should you care9мин
Reinforcement learning vs all3мин
Multi-armed bandit4мин
Decision process & applications6мин
Markov Decision Process5мин
Crossentropy method9мин
Approximate crossentropy method5мин
More on approximate crossentropy method6мин
Evolution strategies: core idea6мин
Evolution strategies: math problems5мин
Evolution strategies: log-derivative trick8мин
Evolution strategies: duct tape6мин
Blackbox optimization: drawbacks4мин
6 материалов для самостоятельного изучения
About the University10мин
Rules on the academic integrity in the course10мин
FAQ10мин
Primers
About honors track1мин
Extras10мин
Неделя
2

Неделя 2

3 ч. на завершение

At the heart of RL: Dynamic Programming

3 ч. на завершение
5 видео ((всего 54 мин.)), 3 материалов для самостоятельного изучения, 4 тестов
5 видео
State and Action Value Functions13мин
Measuring Policy Optimality6мин
Policy: evaluation & improvement10мин
Policy and value iteration8мин
3 материала для самостоятельного изучения
Optional: Reward discounting from a mathematical perspective10мин
External links: Reward Design10мин
Discrete Stochastic Dynamic Programming10мин
3 практических упражнения
Reward design8мин
Optimality in RL30мин
Policy Iteration30мин
Неделя
3

Неделя 3

3 ч. на завершение

Model-free methods

3 ч. на завершение
6 видео ((всего 47 мин.)), 1 материал для самостоятельного изучения, 4 тестов
6 видео
Monte-Carlo & Temporal Difference; Q-learning8мин
Exploration vs Exploitation8мин
Footnote: Monte-Carlo vs Temporal Difference2мин
Accounting for exploration. Expected Value SARSA11мин
On-policy vs off-policy; Experience replay7мин
1 материал для самостоятельного изучения
Extras10мин
1 практическое упражнение
Model-free reinforcement learning30мин
Неделя
4

Неделя 4

3 ч. на завершение

Approximate Value Based Methods

3 ч. на завершение
9 видео ((всего 104 мин.)), 3 материалов для самостоятельного изучения, 5 тестов
9 видео
Loss functions in value based RL11мин
Difficulties with Approximate Methods15мин
DQN – bird's eye view9мин
DQN – the internals9мин
DQN: statistical issues6мин
Double Q-learning6мин
More DQN tricks10мин
Partial observability17мин
3 материала для самостоятельного изучения
TD vs MC10мин
Extras10мин
DQN follow-ups10мин
3 практических упражнения
MC & TD10мин
SARSA and Q-learning10мин
DQN30мин

Рецензии

Лучшие отзывы о курсе PRACTICAL REINFORCEMENT LEARNING

Посмотреть все отзывы

Специализация Продвинутое машинное обучение: общие сведения

Продвинутое машинное обучение

Часто задаваемые вопросы

Остались вопросы? Посетите Центр поддержки учащихся.