[ЗАСТАВКА] В этом видео мы поговорим о том, какие бывают постановки задач в машинном обучении помимо обучения с учителем. И рассмотрим несколько примеров задач обучения без учителя. Итак. Обучением с учителем называются такие задачи, в которых у нас есть и объекты, и истинные ответы на них. И нужно по этим парам восстановить общую зависимость, построить алгоритм или модель, которые будут предсказывать ответы по объектам. Задача обучения без учителя — это такая задача, в которой есть только объекты, ответов нет, и при этом с этими объектами нужно что‐то сделать. Также есть и промежуточные постановки. Например, частичное обучение. В этом случае у нас есть объекты, но ответы известны лишь на части объектов. И нужно как‐то, имея эту информацию, тоже восстановить общую зависимость, построить модель. Или, например, активное обучение. Это задача, в которой есть объекты, но получать ответ для объекта, истинный ответ, очень дорого, очень тяжело. Поэтому алгоритм должен уметь определять, на каких объектах ему надо знать ответ, чтобы лучше всего обучиться, построить наилучшую модель. В этом видео мы обсудим 3 примера постановки задачи обучения без учителя, чтоб вы понимали важность этого класса задач. Первым примером будет задача кластеризации. В этом случае у нас есть некий набор объектов, и нужно сгруппировать их, найти группы похожих объектов. У этой задачи есть 2 проблемы. Проблема первая: мы даже зачастую не знаем количество этих групп, мы не знаем, сколько кластеров имеется в наших данных. А во‐вторых, мы не знаем правильных ответов, мы не знаем истинные кластеры, которые нужно выделять. Поэтому задача решается очень тяжело, здесь нельзя измерить точно качество решения. Кстати, вот этим она и отличается от задачи классификации. В классификации тоже нужно относить объект к одной из групп, но там есть примеры объектов этих групп. Поэтому задача классификации гораздо проще, в ней можно померить качество решения. Примеров задачи кластеризации очень много. Например, эта сегментация пользователей, например интернет‐магазина или мобильного оператора. Им зачастую интересно найти группы похожих пользователей, чтобы дальше, например, заниматься маркетингом для каждой группы в отдельности. Понять, что такого особенного в этой группе, что все пользователи в ней схожие, и ориентировать рекламу именно на этот сегмент, на эту группу. Или, например, можно искать группы похожих пользователей социальных сетей. Но при этом кластеризовать — группировать — можно не только людей. Например, можно кластеризовать гены, пытаясь найти такие группы генов, которые одновременно включаются или выключаются у разных людей в разных условиях. Второй пример задачи обучения без учителя — это задача визуализации. Здесь нам нужно нарисовать многомерную выборку — выборку, которая описывается большим числом признаков. То есть надо уметь многомерную точку отразить в двумерное пространство, то есть на плоскость, или в трёхмерное пространство, то есть в пространство. При этом отобразить нужно так, чтобы визуализация, изображение нашей выборки в двумерном или трёхмерном пространстве отражало структуру исходной многомерной выборки. Чтобы глядя на это изображение, можно было понять, как устроены эти данные. что с ними можно делать. Также обычно есть требование, чтобы эта визуализация была красивой, чтоб на неё было приятно смотреть. Классическим примером задачи визуализации является визуализация data set'а MNIST. Это data set, в котором были отсканированы рукописные начертания всех цифр — от 0 до 9. Понятно, что каждый скан, каждое изображение, характеризуется сотнями пикселей. Но при этом, если грамотно отразить эту многомерную выборку на плоскость, то цифры вполне будут группироваться. Например, цифра 0 будет отдельным облаком где‐то. Причём особенностью хорошей визуализации будет то, что даже начертания одной и той же цифры будут разделяться на разные группы в зависимости от того, как именно написана эта цифра, например с засечкой или без. Третий пример задачи обучения без учителя — это задача обнаружения аномалий, поиска аномалий. В ней требуется обнаруживать, определять, что данный объект не похож на все остальные, что он является аномальным. При этом при обучении у нас есть только примеры обычных, неаномальных объектов, а примеров аномальных либо нет вообще, либо настолько мало, что невозможно воспользоваться классическими методами обучения с учителем. При этом задача очень важная. Например, можно пытаться обнаружить что в самолёте есть поломка по показателям сотен датчиков, расположенных в нём. Такое обнаружение позволит избежать аварии, понятно, что это очень полезно. Или, например, если у нас есть интернет‐сайт, например интернет‐магазин или поисковый сайт, можно пытаться, опять же, по многим показателям понять, что произошла поломка, аномалия, что с сайтом нужно что‐то делать, нужно его срочно чинить. Или, например, если есть некоторая модель машинного обучения, которая делает прогнозы, скажем, понравится ли пользователю фильм или нет, можно пытаться следить за ней, понимать, хорошо ли он делает предсказания, или что‐то поломалось. Например, из‐за того, что распределение одного из признаков поменялось. Итак, мы обсудили 3 примера постановки задач обучения без учителя: кластеризацию, визуализацию и поиск аномалий. В этом курсе мы не будем о них говорить, им будет посвящен следующий курс — «Поиск структуры в данных», приходите. А в следующем видео мы поговорим о том, какие бывают признаки в задачах машинного обучения.