[БЕЗ_ЗВУКА] В этом уроке мы обсудим, как машинное обучение связано с бизнес-процессами и задачами компании. Существует межотраслевой стандарт анализа данных — CRISP-DM. Это циклический процесс, который описан в виде такой диаграммы, и вы можете легко его найти в Интернете, для того чтобы с ним ознакомиться. Знать машинное обучение мало, нужно понимать, как встроить машинное обучение в бизнес-процессы, и самое главное понять, какой это дает эффект, какую проблему для бизнеса решает машинное обучение. Поэтому первым этапом в этом стандарте стоит понимание бизнеса. То, что вам нужно сделать, это пойти к бизнес-заказчику — к человеку, к лицу, принимающему решения по поводу того или иного бизнес-процесса. То есть он отвечает за показатели, которые вы собираетесь улучшать. Вы должны провести с ним интервью — понять, что для него важно, в каком контексте он живет, какая у него картина мира, понять те показатели, которые вы можете улучшать, и в какой бизнес-ситуации он находится. Дальше уже можно понимать и определять цели аналитики и готовить план проекта. Следующий этап — это анализ данных. Сбор данных, описание данных, изучение данных — все это очень важно, потому что данные в компании, как правило, хранятся в разных местах, разных форматах, и есть данные более доступные, есть менее доступные. Есть данные, которые легко анализировать. Есть данные, которые анализировать сложно. Возможно, есть какие-то логи, но эти логи так написаны, что для их анализа требуются определенные усилия. И вам нужно предпринять определенные шаги, для того чтобы из этих, скажем, записанных в JSON строк выделить нужные вам данные, скажем, время обращения сервера куда-то или запуск каких-то служб. Все это нужно внимательно изучить и посмотреть. В реальных проектах данные грязные. То есть эти данные нужно очищать. Очень часто встречается ситуация, когда данные пропущены, и это тоже нужно уметь решать, то есть нужно дозаполнять данные, нужно уметь это делать. Более того, у вас в данных могут быть какие-то выбросы, возможно, их нужно исключить или как-то проанализировать отдельно, в зависимости от вашей задачи. Ну и, конечно, все это характеризует качество данных, с которыми вы будете работать. Когда вы поймете, где находятся данные, в каком качестве и источники этих данных, вот тогда вы можете подходить к подготовке этих данных. Ваша задача — сформировать выборку, то есть как раз то, о чем я говорил чуть ранее: очистить данные, сгенерировать, если это нужно, и собрать их вместе, для того чтобы можно было перейти к следующему этапу, а именно моделированию. Этому этапу у нас посвящена отдельная неделя в нашем курсе, но здесь я кратко расскажу о том, что из себя представляет моделирование, а именно процесс создания модели машинного обучения. Важно понять объект, с которым вы работаете, и также понять признаки, которыми обладает этот объект, так называемый feature engineering — то есть выбор важных признаков, а также выбор перечня моделей, которые вы будете использовать, потому что не все модели могут оказаться такими хорошими, как кажутся вначале. А для этого нужно понимать, как вы будете оценивать качество этих моделей. Дальше вы обучаете модели и тестируете модели. Соответственно, само по себе моделирование тоже является итерационным процессом, в котором надо все время возвращаться и смотреть, все ли признаки вы учли, может быть, есть избыточные признаки, какие модели работают лучше, а какие хуже. После того как вы завершили с машинным обучением, вы смотрите на оценку решения, на то, насколько вы смогли добиться каких-то бизнес-результатов, какой у вас есть прогресс. И тогда уже можно понимать, какие следующие шаги вы будете совершать. И только после того, как понятно, что все это приносит ощутимый эффект для бизнеса, можно готовить внедрение. Само по себе внедрение является отдельным большим проектом, в котором есть и подготовка плана внедрения, планирование мониторинга этого внедрения, как вы будете поддерживать, вы тоже должны понимать, собственно подготовка отчетов и ревью проекта. То есть внедрение может оказаться на самом деле очень длительным и занять гораздо больше времени, чем собственно само создание модели. Обратите внимание, что работа по этому стандарту — она циклична и итеративна. То есть вам часто придется возвращаться на шаг, а иногда на несколько шагов назад, для того чтобы получить хорошее качество модели. Я рекомендую для того, чтобы сделать этот процесс менее затратным и более эффективным, делать Proof-of-Concept, то есть составлять гипотезу вместе с заказчиком. Скажем, мы хотим оптимизировать время разговора оператора на 25 %. Или мы хотим увеличить пропускную способность в десять раз. Или мы хотим оптимизировать количество персонала на такое-то количество. Это метрика, на которую вы опираетесь. Дальше вы строите модель на данных, которые вы уже подготовили и проанализировали. Возможно, вы делаете какую-то упрощенную задачу и смотрите, работает ли эта модель, дает ли эта модель какой-то эффект. Если эффект подтверждается, то тогда вы возвращаетесь на цикл, еще раз дорабатываете модель и уже плавно движетесь к внедрению. То есть Proof-of-Concept — это такой небольшой предпроект, в рамках которого вы понимаете, что вообще машинное обучение способно решить вашу бизнес-задачу и оно дает ощутимый эффект для бизнеса. И ваш бизнес-заказчик это понимает и готов двигаться с вами дальше, выделять ресурсы на более крупный проект и собственно доводить его до внедрения. Таким образом, мы обсудили с вами, какие есть нюансы при внедрении машинного обучения в реальных проектах, в реальные бизнес-процессы. Важно понимать, что машинное обучение само по себе для бизнеса ничего не значит. Оно находится в контексте бизнеса и призвано решать конкретные задачи, повышая эффективность или увеличивая доходы. [ЗВУК]