[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] До сих пор мы рассматривали табличные методы, которые рассчитаны на задачи с дискретными и конечными множествами действий и состояний. Однако в финансовых приложениях такие методы обычно не применимы, поскольку в финансах часто возникают задачи непрерывного управления. Для таких задач рассмотренные методы могут быть модифицированы с помощью аппроксимации функции ценности, некоторой регрессионной модели. Например, в методе Q-обучения регрессионная модель может заменить матрицу, в которой хранятся Q-значения. Входные параметры регрессии — это соответственно текущее состояние процесса и возможные действия, а значения на выходе — это оценка Q-значения. Стоит отметить, что сходимость Q-функции к истинному значению в процессе Q-обучения больше не гарантирована. Однако на практике такой подход обычно работает достаточно эффективно. Методы глубокого Q-обучения получаются естественным образом, если Q-функция в методе Q-обучения аппроксимируется глубокой нейронной сетью. Такая сеть называется Q-сетью. На вход данной сети подается текущее состояние процесса, а на выходе получаются оценки Q-значений для каждого допустимого действия. Преимущество Q-сети заключается в том, что она может работать с непрерывными и неограниченными состояниями, может одновременно предсказывать Q-значения для всех допустимых действий, а также позволяет оценивать градиенты Q-функции по каждому действию. Для того, чтобы обучить Q-сеть, необходимо правильно сформулировать функцию потерь нейронной сети. Данная функция основана на стандартном уравнении обновления, однако чтобы представить уравнение обновления именно как функцию потерь, из его правой части следует вычесть текущую оценку Q-значения, после чего вся эта алгебраическая конструкция возводится в квадрат. Таким образом уравнение обновления приводится к стандартной форме функции потерь, которая используется при обучении нейронных сетей. Метод итераций по стратегиям также может быть модифицирован с использованием принципов глубокого обучения. Один из примеров такого класса методов называется градиент детерминированных стратегий, который предназначен для работы с непрерывными действиями. В этом методе используется глубокая нейронная сеть непосредственно для рекомендации наилучшего действия в зависимости от состояния процесса. Такая сеть называется π-сетью. Обучение π-сети осуществляется с помощью цепного правила градиентов. Это означает, что сначала нужно посчитать градиенты π-сети так, как это происходит в стандартном процессе обучения нейронных сетей методом обратного распространения ошибки. Затем эти градиенты должны быть скорректированы на значения градиентов Q-функции. Корректировка происходит умножением градиентов π-сети на градиенты Q-функции. Очевидно, что для того, чтобы уравнение заработало, нам необходимо знать градиенты Q-функции. На практике они могут быть оценены подстановкой текущей стратегии в модель процесса, если по условиям задачи модель процесса известна. Либо они могут быть как-то аппроксимированы. Применение рассмотренных методов глубокого Q-обучения градиента стратегии на практике все еще может быть ограничено, особенно в финансовой сфере по причине их некоторых недостатков. Один из недостатков глубокого Q-обучения заключается в том, что оно может эффективно работать только с небольшим дискретным множеством допустимых действий. Но в финансовых задачах не только состояния являются непрерывными, но также и возможные действия. Проблемы метода градиентов стратегии связаны с тем, что он использует текущую оценку оптимальной стратегии для расчета градиентов Q-функции. Это приводит к высокой дисперсии метода, а также к тому, что он может сойтись к локальному максимуму. Возможно ли объединить преимущества обоих методов для того, чтобы получить один эффективный алгоритм глубокого обучения. Ответ на этот вопрос — да, класс таких методов называется Actor-Critic, и он представляет собой наиболее универсальный и удобный на практике подход. Архитектура метода Actor-Critic представляется двумя составными блоками. Первый — это π-сеть, которая осуществляет рекомендацию наилучшего действия в зависимости от текущего состояния процесса. Второй блок — это Q-сеть, которая оценивает Q-значения выбранных действий и сообщает π-сети их градиенты. Благодаря выделенной Q-сети данная архитектура может качественно изучить модель процесса непосредственно из данных, так же, как это происходит в обычном Q-обучении. Но при этом выделенная π-сеть может использоваться для поиска как непрерывных, так и дискретных и даже стохастических оптимальных стратегий. Процесс обучения метода Actor-Critic основан на ранее рассмотренных принципах обучения Q-сеть и π-сети. Однако теперь каждая из сетей дает свой вклад в обучение другой сети. Таким образом обе сети обучаются совместно и дообучают друг друга. Рассмотренная архитектура глубокого обучения с подкреплением Actor-Critic на практике требует существенных вычислительных затрат, так как в процессе обучения агенту приходится многократно взаимодействовать с окружающей средой. Чтобы данный метод мог найти достаточно качественное решение задачи, необходимо, чтобы он эффективно работал на параллельной вычислительной архитектуре. К счастью, архитектура Actor-Critic может быть легко распараллелена. Для этого создается глобальная π-сеть, которая клонируется на несколько агентов, после чего данные клоны независимо взаимодействуют с окружающей средой. При этом каждый такой клонированный агент может работать на выделенном ядре CPU или GPU и аккумулировать собственный опыт взаимодействия с окружающей средой. По мере накопления достаточного опыта взаимодействия с окружающей средой каждым независимым агентом этот опыт агрегируется и передается глобальной π-сети, а также глобальной Q-сети для обучения. Затем процесс клонирования повторяется заново, и таким образом происходит параллельное обучение архитектуры Actor-Critic. При решении задач оптимального управления в финансовой сфере часто приходится сталкиваться с проблемой частичной наблюдаемости состояний. Частично наблюдаемое состояние заключается в том, что состояние процесса может быть известно не точно, а лишь с некоторой вероятностью. То есть существуют некоторые индикаторы состояния процесса, но абсолютно точно установить его невозможно. Например, в финансовой сфере часто используется кредитный рейтинг для оценки кредитоспособности заемщика. Однако кредитный рейтинг не может точно идентифицировать объем возврата заемных средств. Он всего лишь позволяет оценить вероятность дефолта. При этом даже заемщик с очень высоким кредитным рейтингом может объявить дефолт с некоторой ненулевой вероятностью. Для решения задачи с частичной наблюдаемостью состояний можно использовать такой же подход, который используется для решения обычных MDP, если вместо фактических состояний использовать веры. Веры — это наилучшие оценки возможного состояния процесса с учетом всей доступной информации на текущий момент. Но такой подход на практике очень трудоемок, поскольку на каждом шаге процесса требуется обновлять веры с учетом новой поступившей информации. Существует альтернативное, более практичное решение — это использовать рекуррентные нейронные сети, такие, как LSTM или GRU, для реализации Q-сети и π-сети. Идея данного подхода заключается в том, чтобы рекуррентные сети автоматически инкорпорировали информацию обо всех прошлых состояниях процесса и вырабатывали оптимальную стратегию на основе всей полученной информации. Еще один важный аспект решения практических задач оптимального управления — это многоагентность, то есть возможность взаимодействия нескольких интеллектуальных агентов в рамках одного динамического процесса. Такая задача называется марковской игрой. Сложность марковских игр заключается в том, что в них может быть несколько режимов взаимодействия агентов. Один режим — это конкуренция, когда цели агентов конфликтуют друг с другом. Другой режим — это кооперация, при которой агенты преследуют некоторую общую цель. Еще один режим, который является более сложной версией кооперативного режима — это координация. В этом случае агенты по-прежнему преследуют некоторую общую цель, но для ее достижения они берут на себя различные роли, за счет чего реализуется дополнительный синергетический эффект. Стратегии агентов при решении марковских игр должны зависеть только от локальных состояний процесса, то есть от тех состояний, которые каждый агент может непосредственно наблюдать в собственной окружающей среде. Для решения многоагентных задач метод Actor-Critic может быть адаптирован таким образом, что каждому интеллектуальному агенту назначается отдельная π-сеть, при этом агенты могут наблюдать локальное состояние процесса только из собственной окружающей среды. Оценка действий агентов производится централизованным объектом Critic, то есть Q-сетью, которая способна наблюдать локальные состояния и действия всех агентов одновременно. По окончании такого процесса обучения полученные оптимальные стратегии агентов должны приводить марковскую игру в равновесное состояние. Мы рассмотрели класс задач оптимального управления в контексте финансовой отрасли. И как мы убедились, такие задачи встречаются довольно часто. Для эффективного решения этих задач необходим простой и универсальный подход. Глубокое обучение с подкреплением представляет собой многофункциональный и удобный инструмент для решения задач оптимального управления во многих финансовых приложениях. Кроме того, глубокое обучение с подкреплением — это одна из наиболее активных областей исследования современных теорий машинного обучения. Существенные прорывы в этой сфере случаются практически каждый год. В следующем разделе мы расскажем вам, как мы использовали изложенные принципы для решения задачи привлечения депозитов юридических лиц в Сбербанке. [МУЗЫКА] [МУЗЫКА]