Об этом курсе

Недавно просмотрено: 182,923

Карьерные результаты учащихся

25%

начал новую карьеру, пройдя эти курсы

10%

получил значимые преимущества в карьере благодаря этому курсу
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Средний уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 15 часов на выполнение
Английский

Чему вы научитесь

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Приобретаемые навыки

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

Карьерные результаты учащихся

25%

начал новую карьеру, пройдя эти курсы

10%

получил значимые преимущества в карьере благодаря этому курсу
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Средний уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 15 часов на выполнение
Английский

от партнера

Placeholder

Альбертский университет

Placeholder

Alberta Machine Intelligence Institute

Программа курса: что вы изучите

Оценка контентаThumbs Up93%(11,240 оценки)Info
Неделя
1

Неделя 1

1 ч. на завершение

Welcome to the Course!

1 ч. на завершение
4 видео ((всего 20 мин.)), 2 материалов для самостоятельного изучения
4 видео
Course Introduction5мин
Meet your instructors!8мин
Your Specialization Roadmap3мин
2 материала для самостоятельного изучения
Reinforcement Learning Textbook10мин
Read Me: Pre-requisites and Learning Objectives10мин
4 ч. на завершение

An Introduction to Sequential Decision-Making

4 ч. на завершение
8 видео ((всего 46 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
8 видео
Learning Action Values4мин
Estimating Action Values Incrementally5мин
What is the trade-off?7мин
Optimistic Initial Values6мин
Upper-Confidence Bound (UCB) Action Selection5мин
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8мин
Week 1 Summary3мин
3 материала для самостоятельного изучения
Module 1 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary30мин
1 практическое упражнение
Sequential Decision-Making45мин
Неделя
2

Неделя 2

3 ч. на завершение

Markov Decision Processes

3 ч. на завершение
7 видео ((всего 36 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
7 видео
Examples of MDPs4мин
The Goal of Reinforcement Learning3мин
Michael Littman: The Reward Hypothesis12мин
Continuing Tasks5мин
Examples of Episodic and Continuing Tasks3мин
Week 2 Summary1мин
2 материала для самостоятельного изучения
Module 2 Learning Objectives10мин
Weekly Reading30мин
1 практическое упражнение
MDPs45мин
Неделя
3

Неделя 3

3 ч. на завершение

Value Functions & Bellman Equations

3 ч. на завершение
9 видео ((всего 56 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
9 видео
Value Functions6мин
Rich Sutton and Andy Barto: A brief History of RL7мин
Bellman Equation Derivation6мин
Why Bellman Equations?5мин
Optimal Policies7мин
Optimal Value Functions5мин
Using Optimal Value Functions to Get Optimal Policies8мин
Week 3 Summary4мин
3 материала для самостоятельного изучения
Module 3 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary13мин
2 практических упражнения
[Practice] Value Functions and Bellman Equations45мин
Value Functions and Bellman Equations45мин
Неделя
4

Неделя 4

4 ч. на завершение

Dynamic Programming

4 ч. на завершение
10 видео ((всего 72 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
10 видео
Iterative Policy Evaluation8мин
Policy Improvement4мин
Policy Iteration8мин
Flexibility of the Policy Iteration Framework4мин
Efficiency of Dynamic Programming5мин
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7мин
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21мин
Week 4 Summary2мин
Congratulations!3мин
3 материала для самостоятельного изучения
Module 4 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary30мин
1 практическое упражнение
Dynamic Programming45мин

Рецензии

Лучшие отзывы о курсе FUNDAMENTALS OF REINFORCEMENT LEARNING

Посмотреть все отзывы

Специализация Обучения с подкреплением: общие сведения

Обучения с подкреплением

Часто задаваемые вопросы

Остались вопросы? Посетите Центр поддержки учащихся.