Об этом курсе

Недавно просмотрено: 76,815
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Средний уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 22 часа на выполнение
Английский

Приобретаемые навыки

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Средний уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 22 часа на выполнение
Английский

от партнера

Placeholder

Альбертский университет

Placeholder

Alberta Machine Intelligence Institute

Программа курса: что вы изучите

Оценка контентаThumbs Up92%(2,084 оценки)Info
Неделя
1

Неделя 1

1 ч. на завершение

Welcome to the Course!

1 ч. на завершение
2 видео ((всего 12 мин.)), 2 материалов для самостоятельного изучения
2 видео
Meet your instructors!8мин
2 материала для самостоятельного изучения
Read Me: Pre-requisites and Learning Objectives10мин
Reinforcement Learning Textbook10мин
5 ч. на завершение

On-policy Prediction with Approximation

5 ч. на завершение
13 видео ((всего 69 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
13 видео
Generalization and Discrimination5мин
Framing Value Estimation as Supervised Learning3мин
The Value Error Objective4мин
Introducing Gradient Descent7мин
Gradient Monte for Policy Evaluation5мин
State Aggregation with Monte Carlo7мин
Semi-Gradient TD for Policy Evaluation3мин
Comparing TD and Monte Carlo with State Aggregation4мин
Doina Precup: Building Knowledge for AI Agents with Reinforcement Learning7мин
The Linear TD Update3мин
The True Objective for TD5мин
Week 1 Summary4мин
2 материала для самостоятельного изучения
Module 1 Learning Objectives10мин
Weekly Reading: On-policy Prediction with Approximation40мин
1 практическое упражнение
On-policy Prediction with Approximation30мин
Неделя
2

Неделя 2

5 ч. на завершение

Constructing Features for Prediction

5 ч. на завершение
11 видео ((всего 52 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
11 видео
Generalization Properties of Coarse Coding5мин
Tile Coding3мин
Using Tile Coding in TD4мин
What is a Neural Network?3мин
Non-linear Approximation with Neural Networks4мин
Deep Neural Networks3мин
Gradient Descent for Training Neural Networks8мин
Optimization Strategies for NNs4мин
David Silver on Deep Learning + RL = AI?9мин
Week 2 Review2мин
2 материала для самостоятельного изучения
Module 2 Learning Objectives10мин
Weekly Reading: On-policy Prediction with Approximation II40мин
1 практическое упражнение
Constructing Features for Prediction28мин
Неделя
3

Неделя 3

6 ч. на завершение

Control with Approximation

6 ч. на завершение
7 видео ((всего 41 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
7 видео
Episodic Sarsa in Mountain Car5мин
Expected Sarsa with Function Approximation2мин
Exploration under Function Approximation3мин
Average Reward: A New Way of Formulating Control Problems10мин
Satinder Singh on Intrinsic Rewards12мин
Week 3 Review2мин
2 материала для самостоятельного изучения
Module 3 Learning Objectives10мин
Weekly Reading: On-policy Control with Approximation40мин
1 практическое упражнение
Control with Approximation40мин
Неделя
4

Неделя 4

6 ч. на завершение

Policy Gradient

6 ч. на завершение
11 видео ((всего 55 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
11 видео
Advantages of Policy Parameterization5мин
The Objective for Learning Policies5мин
The Policy Gradient Theorem5мин
Estimating the Policy Gradient4мин
Actor-Critic Algorithm5мин
Actor-Critic with Softmax Policies3мин
Demonstration with Actor-Critic6мин
Gaussian Policies for Continuous Actions7мин
Week 4 Summary3мин
Congratulations! Course 4 Preview2мин
2 материала для самостоятельного изучения
Module 4 Learning Objectives10мин
Weekly Reading: Policy Gradient Methods40мин
1 практическое упражнение
Policy Gradient Methods45мин

Рецензии

Лучшие отзывы о курсе PREDICTION AND CONTROL WITH FUNCTION APPROXIMATION

Посмотреть все отзывы

Специализация Обучения с подкреплением: общие сведения

Обучения с подкреплением

Часто задаваемые вопросы

Остались вопросы? Посетите Центр поддержки учащихся.