Коллеги, добрый день! Меня зовут Игорь Мичурин. Я работаю в компании "Сбербанк" и занимаюсь задачами связанными с развитием технологий artificial intelligence и внедрение их в процессы блока "финансы". В рамках нашего курса я бы хотел рассказать о жизненном цикле моделей и его этапах, как правильно подходить к работе с источниками данных, их выборе, о подходах при выборе методов машинного обучения и их внедрению. Итак, давайте начнем курс с вопроса: в каких случаях применимы подходы машинного обучения для решения задач? На самом деле задачи можно решать с помощью других подходов, накопленного экспертного опыта или простых статистических вычислений. Прежде всего для выбора подхода вам нужно оценить плюсы и минусы по следующим факторам: это влияние на процессы, то есть какой эффект вы хотите получить от данного решения. Например, вы можете видеть целесообразность использования методов машинного обучения в процессах прогнозирования макроэкономических показателей. Следующий фактор это интерпретируемость результата и точность. Достаточно ли вам вероятностного результата или его точность должна быть близка к 1. Следующим фактором являются ресурсы. В нашем случае это могут быть вычислительные мощности для обработки данных и построения моделей. Последним фактором является достаточность данных информации, на которой вы можете построить модель или посчитать аналитику. Давайте теперь посмотрим, какова схема процесса, с чего, в принципе, начинается любая задача при построении моделей. Первое это понимание целей, то есть для чего вы вообще строите модель. Это понимание должно быть одинаково с тем, кто ставит вам задачу. Если вы понимаете одинаково, какой результат вы получаете, то вы можете двигаться дальше. Если такого понимания не возникает, то дальше двигаться по процессу нет никакого смысла. Второй блок действий, который необходимо выполнить это работа с данными, то есть это сбор данных из источников, очистка данных, первичный анализ. К примеру, вы можете сделать вывод, что качество данных или их количество или историческая глубина не позволяет вам решить задачу с помощью методов машинного обучения. Наличие положительного анализа достаточности и качества используемых данных позволяет перейти к выбору методов обучения моделей. Мы определяем метод, далее производим построение модели, ее калибровку под конкретные задачи, которые необходимо решить и проводим первичную оценку критериев качества. То есть подтверждаем, что наш выбранный метод правильный из всех используемых для решения данной задачи. Соответственно, если первичная валидация у вас пройдена, вы не видите каких-либо проблем с переобучением модели, то можете двигаться к следующему действию. Если результат неудовлетворительный, то цикл можно повторить и метод может быть выбран какой-то другой. Вы можете дополнить источники данных новой информацией или изменить алгоритмы расчета факторов входящих в модель. Следующая часть схемы - внедрение модели в процесс и принципы ее тестирования. Причем тестирование не только связано с самими методами построения моделей, а скорее с технической стороной. Ошибки в коде модели будут требовать их устранения и повторную проверку. Итак, модель внедрена в процесс. С этого момента возникает необходимость подтверждения корректности результата, для этого можно использовать регулярную систему мониторинга. Это цикличный процесс, который должен включать набор автоматизированных тестов, характеризующих корректность работы моделей. Тесты должны покрывать наиболее уязвимые точки в работе модели, например, это входящий поток данных или bac-kтест результатов модели относительно фактических значений. Если же вы видите по результатам тестов падение эффективности модели, то необходимо вернуться на более ранние шаги, процессы ее построения. Описанная мною схема необходима для функционирования моделей, по другому мы можем это назвать жизненным циклом моделей. Я в нем выделил 6 этапов, о которых мы с вами подробно поговорим. Первый этап - это работа с данными. Важно иметь корректную оценку источников данных, их влияние на этапе разработки моделей. Второй этап - разработка моделей. Важно, чтобы используемые методы максимально соответствовали поставленным задачам. При этом вы должны четко понимать, какой спектр ограничений для применения моделей. Третий этап - первичная оценка критериев качества модели. На данном этапе должна проходить оценка значимости моделей и их последующее усовершенствование включая использование различных подходов и методов при разработке. Все метрики модели должны проходить первичную оценку и вы должны иметь возможность сопоставить различные результаты по их эффективности. После данного этапа вы можете говорить о том, что ваша модель применима к решению поставленных задач. Четвертый этап это промышленное внедрение, то есть это вопрос единого понимания, разработки, тестирования и внедрения модели в процесс. Разработка моделей и использование в дальнейшем ее результатов должно проходить на сопоставимых алгоритмах агрегации данных. В противном случае использование модели будет иметь повышенный операционный и модельный риск, что приведет к неудовлетворительному результату. Переходим к пятому этапу. Постоянный мониторинг. Это система, которая должна позволять снижать модельный риск. По факту вы должны отслеживать результаты модели на регулярной основе. Это может быть ежемесячно или ежедневно, может быть еще чаще в зависимости от того процесса, к которому модель применяют. Соответственно, продолжением этапа мониторинга является шестой этап - регулярная валидация. Регулярная валидация является более глубоким анализом моделей, который, в свою очередь, должен раскрывать показатель ее эффективности. В случае выявления снижения ее эффективности вы можете принять решение о ее калибровке или создании новой модели. Вы можете вернуться к анализу данных и построить новые агрегированные переменные, которые позволят вам получить новый результат или его улучшить в модели. можете вернуться на этап построения модели и попробовать применить другие методы, которые позволили бы решить данную задачу.