Об этом курсе

Недавно просмотрено: 208,435
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Средний уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 15 часов на выполнение
Английский

Чему вы научитесь

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Приобретаемые навыки

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Средний уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 15 часов на выполнение
Английский

от партнера

Placeholder

Альбертский университет

Placeholder

Alberta Machine Intelligence Institute

Программа курса: что вы изучите

Оценка контентаThumbs Up93%(9,680 оценки)Info
Неделя
1

Неделя 1

1 ч. на завершение

Welcome to the Course!

1 ч. на завершение
4 видео ((всего 20 мин.)), 2 материалов для самостоятельного изучения
4 видео
Course Introduction5мин
Meet your instructors!8мин
Your Specialization Roadmap3мин
2 материала для самостоятельного изучения
Reinforcement Learning Textbook10мин
Read Me: Pre-requisites and Learning Objectives10мин
4 ч. на завершение

An Introduction to Sequential Decision-Making

4 ч. на завершение
8 видео ((всего 46 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
8 видео
Learning Action Values4мин
Estimating Action Values Incrementally5мин
What is the trade-off?7мин
Optimistic Initial Values6мин
Upper-Confidence Bound (UCB) Action Selection5мин
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8мин
Week 1 Summary3мин
3 материала для самостоятельного изучения
Module 1 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary30мин
1 практическое упражнение
Sequential Decision-Making45мин
Неделя
2

Неделя 2

3 ч. на завершение

Markov Decision Processes

3 ч. на завершение
7 видео ((всего 36 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
7 видео
Examples of MDPs4мин
The Goal of Reinforcement Learning3мин
Michael Littman: The Reward Hypothesis12мин
Continuing Tasks5мин
Examples of Episodic and Continuing Tasks3мин
Week 2 Summary1мин
2 материала для самостоятельного изучения
Module 2 Learning Objectives10мин
Weekly Reading30мин
1 практическое упражнение
MDPs45мин
Неделя
3

Неделя 3

3 ч. на завершение

Value Functions & Bellman Equations

3 ч. на завершение
9 видео ((всего 56 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
9 видео
Value Functions6мин
Rich Sutton and Andy Barto: A brief History of RL7мин
Bellman Equation Derivation6мин
Why Bellman Equations?5мин
Optimal Policies7мин
Optimal Value Functions5мин
Using Optimal Value Functions to Get Optimal Policies8мин
Week 3 Summary4мин
3 материала для самостоятельного изучения
Module 3 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary13мин
2 практических упражнения
[Practice] Value Functions and Bellman Equations45мин
Value Functions and Bellman Equations45мин
Неделя
4

Неделя 4

4 ч. на завершение

Dynamic Programming

4 ч. на завершение
10 видео ((всего 72 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
10 видео
Iterative Policy Evaluation8мин
Policy Improvement4мин
Policy Iteration8мин
Flexibility of the Policy Iteration Framework4мин
Efficiency of Dynamic Programming5мин
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7мин
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21мин
Week 4 Summary2мин
Congratulations!3мин
3 материала для самостоятельного изучения
Module 4 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary30мин
1 практическое упражнение
Dynamic Programming45мин

Рецензии

Лучшие отзывы о курсе FUNDAMENTALS OF REINFORCEMENT LEARNING

Посмотреть все отзывы

Специализация Обучения с подкреплением: общие сведения

Обучения с подкреплением

Часто задаваемые вопросы

Остались вопросы? Посетите Центр поддержки учащихся.