[МУЗЫКА] Здравствуйте! Меня зовут Евгений Ковалев. Сегодня мы с вами поговорим про решающие деревья. Сначала напомню, что это такое. Решающие деревья — это алгоритм машинного обучения, суть которого в том, чтобы разделить пространство объектов, которые у нас имеются, на различные части. Причем, для каждой части этого пространства, для подпространства, мы будем говорить, что все объекты, которые в него попали, принадлежат одному классу или имеют в качестве ответа одно и то же число, если мы решаем задачи регрессии. Давайте рассмотрим пример. Пусть у нас есть выборка из людей, и признаковыми описаниями является набор лет, то есть признаками, которые описывают людей, являются их возраст в годах, получается здесь от 20 до 60, и их доход в тысячах долларов, скорее всего, это годовой доход. И в этой выборке есть люди, которые посещали фестиваль Burning Man — это такой известный фестиваль в Америке, и люди, которые его не посещали. На плоскости видно, как эти точки расположены. Оранжевыми кружочками показаны люди, которые посещали фестиваль, а синими треугольничками — те, которые не посещали. И наша задача отделить одно от другого, и собственно, видно, что да, оранжевые точки скучены примерно здесь. Давайте начнем строить решающее дерево. Что делает решающее дерево? Оно ищет какие-то предикаты, логические правила, которые позволят начать делить это пространство. Делить как? Ну, перпендикулярными линиями. В данном случае, так как у нас плоскость, мы можем оперировать такими терминами. Решающее дерево просто проводит черту, перпендикулярную какой-то оси, разделяющей нашу плоскость на два подпространства. Что делает решающее дерево в данном случае: оно берет признак «доход» и смотрит — доход человека меньше 61 000? Если да, то оно отправляет этого человека в левое поддерево, а если нет, то отправляет в правое поддерево. Также левое поддерево сразу является листом. То есть если доход человека меньше 61 000, то сразу мы его можем классифицировать как не посетившего этот фестиваль. Это изображено на картинке. Вот эта зеленая черта соответствует 61 000 дохода по оси y, и все, что меньше, видно, что действительно там очень мало оранжевых кружочков, так что, скорее всего, мы вряд ли сильно ошибемся, если мы классифицируем людей, которые туда попали как не посещавших фестиваль. Всё, что выше, с этим дальше мы уже работаем. Работаем мы следующим образом: решающее дерево берет теперь признак «возраст» по каким-то своим предположениям и спрашивает: «Возраст меньше 27 лет?» Если возраст меньше 27 лет, это соответствует вот этой зеленой линии, то мы отправляем всех людей точно так же в класс «синие треугольники» — не посещавшие фестиваль. Это соответствует вот этой области на картинке. Если же ответа на этот вопрос нет, то тогда мы в конце концов уже смотрим на возраст еще раз и смотрим, меньше ли возраст 38. И если он меньше, то тогда мы уже классифицируем людей как посетивших фестиваль Burning Man. Это соответствует вот этой области, где как раз сконцентрировано большинство вот этих оранжевых кружков. Если же ответ «нет», то тогда это соответствует этой области, и человек Burning Man не посещал. Как видно, мы разбили имеющееся пространство на несколько частей, где для каждой из частей, а именно, для этой, для этой и для этой мы дали ответ, что человек, который попал в эту часть, то есть объект выборки, относится к классу не посещавших фестиваль Burning Man, а всё, что попало в эту область, относится к классу посещавших Burning Man. Таким образом, мы построили вот такое решающее дерево, разбили наше пространство на несколько разных частей и смогли классифицировать объекты нашей выборки. Сами по себе решающие деревья используются в машинном обучении достаточно редко на практике. Однако это неверно для различных их композиций. То есть бывает много задач, где хорошее достаточно качество дают методы, основанные на композиции, то есть ансамблях деревьев, где берется много решающих деревьев, строится и берется какое-то их усреднение. Примерами таких алгоритмов являются random forest, XGBoost, LightGBM, которые будут в том числе, разобраны на следующих неделях. [МУЗЫКА]