Об этом курсе

Недавно просмотрено: 256,522
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Промежуточный уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 15 часов на выполнение
Английский
Субтитры: Английский

Чему вы научитесь

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Приобретаемые навыки

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
Сертификат, ссылками на который можно делиться с другими людьми
Получите сертификат по завершении
100% онлайн
Начните сейчас и учитесь по собственному графику.
Гибкие сроки
Назначьте сроки сдачи в соответствии со своим графиком.
Промежуточный уровень

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Прибл. 15 часов на выполнение
Английский
Субтитры: Английский

от партнера

Логотип Альбертский университет

Альбертский университет

Логотип Alberta Machine Intelligence Institute

Alberta Machine Intelligence Institute

Программа курса: что вы изучите

Оценка контентаThumbs Up93%(7,022 оценки)Info
Неделя
1

Неделя 1

1 ч. на завершение

Welcome to the Course!

1 ч. на завершение
4 видео ((всего 20 мин.)), 2 материалов для самостоятельного изучения
4 видео
Course Introduction5мин
Meet your instructors!8мин
Your Specialization Roadmap3мин
2 материала для самостоятельного изучения
Reinforcement Learning Textbook10мин
Read Me: Pre-requisites and Learning Objectives10мин
4 ч. на завершение

The K-Armed Bandit Problem

4 ч. на завершение
8 видео ((всего 46 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
8 видео
Learning Action Values4мин
Estimating Action Values Incrementally5мин
What is the trade-off?7мин
Optimistic Initial Values6мин
Upper-Confidence Bound (UCB) Action Selection5мин
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8мин
Week 1 Summary3мин
3 материала для самостоятельного изучения
Module 2 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary30мин
1 практическое упражнение
Exploration/Exploitation45мин
Неделя
2

Неделя 2

3 ч. на завершение

Markov Decision Processes

3 ч. на завершение
7 видео ((всего 36 мин.)), 2 материалов для самостоятельного изучения, 2 тестов
7 видео
Examples of MDPs4мин
The Goal of Reinforcement Learning3мин
Michael Littman: The Reward Hypothesis12мин
Continuing Tasks5мин
Examples of Episodic and Continuing Tasks3мин
Week 2 Summary1мин
2 материала для самостоятельного изучения
Module 3 Learning Objectives10мин
Weekly Reading30мин
1 практическое упражнение
MDPs45мин
Неделя
3

Неделя 3

3 ч. на завершение

Value Functions & Bellman Equations

3 ч. на завершение
9 видео ((всего 56 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
9 видео
Value Functions6мин
Rich Sutton and Andy Barto: A brief History of RL7мин
Bellman Equation Derivation6мин
Why Bellman Equations?5мин
Optimal Policies7мин
Optimal Value Functions5мин
Using Optimal Value Functions to Get Optimal Policies8мин
Week 3 Summary4мин
3 материала для самостоятельного изучения
Module 4 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary13мин
2 практических упражнения
Value Functions and Bellman Equations45мин
Value Functions and Bellman Equations45мин
Неделя
4

Неделя 4

4 ч. на завершение

Dynamic Programming

4 ч. на завершение
10 видео ((всего 72 мин.)), 3 материалов для самостоятельного изучения, 2 тестов
10 видео
Iterative Policy Evaluation8мин
Policy Improvement4мин
Policy Iteration8мин
Flexibility of the Policy Iteration Framework4мин
Efficiency of Dynamic Programming5мин
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7мин
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21мин
Week 4 Summary2мин
Congratulations!3мин
3 материала для самостоятельного изучения
Module 5 Learning Objectives10мин
Weekly Reading30мин
Chapter Summary30мин
1 практическое упражнение
Dynamic Programming45мин

Рецензии

Лучшие отзывы о курсе FUNDAMENTALS OF REINFORCEMENT LEARNING

Посмотреть все отзывы

Специализация Обучения с подкреплением: общие сведения

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
Обучения с подкреплением

Часто задаваемые вопросы

  • Access to lectures and assignments depends on your type of enrollment. If you take a course in audit mode, you will be able to see most course materials for free. To access graded assignments and to earn a Certificate, you will need to purchase the Certificate experience, during or after your audit. If you don't see the audit option:

    • The course may not offer an audit option. You can try a Free Trial instead, or apply for Financial Aid.

    • The course may offer 'Full Course, No Certificate' instead. This option lets you see all course materials, submit required assessments, and get a final grade. This also means that you will not be able to purchase a Certificate experience.

  • When you enroll in the course, you get access to all of the courses in the Specialization, and you earn a certificate when you complete the work. Your electronic Certificate will be added to your Accomplishments page - from there, you can print your Certificate or add it to your LinkedIn profile. If you only want to read and view the course content, you can audit the course for free.

  • If you subscribed, you get a 7-day free trial during which you can cancel at no penalty. After that, we don’t give refunds, but you can cancel your subscription at any time. See our full refund policy.

  • Yes, Coursera provides financial aid to learners who cannot afford the fee. Apply for it by clicking on the Financial Aid link beneath the "Enroll" button on the left. You'll be prompted to complete an application and will be notified if you are approved. You'll need to complete this step for each course in the Specialization, including the Capstone Project. Learn more.

Остались вопросы? Посетите Центр поддержки учащихся.