[БЕЗ_ЗВУКА] В этом видео мы поговорим о регуляризации линейных регрессионных моделей. Как вы видели ранее в этом курсе, регрессионные модели имеют свойство переобучаться. Если вы взяли слишком сложную модель и у вас недостаточно данных для того, чтобы точно определить ее параметры, вы легко можете получить какую-то модель, которая будет очень хорошо описывать вашу обучающую выборку, но при этом очень плохо обобщаться на тестовую. Бороться с этим можно разными способами. Можно попробовать взять больше данных. Имея много данных, вы сможете точнее оценить вашу модель и уменьшить переобучение. Очень часто это решения недоступно, поскольку дополнительные данные стоят дополнительных денег. Даже в задачах, когда, казалось бы, у вас есть терабайты данных, например в задачах веб-поиска, эффективный объем выборки зачастую часто оказывается очень маленьким, если, например, мы хотим показывать для каждого пользователя его персонализированные результаты. Мы вынуждены использовать только его историю. Еще один способ борьбы с переобучением — это упрощение модели. В частности, можно, например, взять просто меньше признаков. Какие-то из признаков просто выбросить. Для этого нужно перебрать большое количество подмножеств наших признаков xj-тое, и общее количество подмножеств, которые нужно перебрать, очень быстро растет с ростом размерности задачи. Полный перебор часто оказывается недоступен. Кроме того, если признаков действительно много и они сильно зашумлены, может оказаться, что в выборке находится какая-то пара признаков, которые на обучении очень похожи. В этом случае совершенно непонятно, какой из этих признаков следует взять в модель. Наконец, еще один способ борьбы с переобучением линейной модели — это ограничение весов у признаков. Вы видели ранее в курсе, что когда линейная модель переобучается, веса у признаков становятся большими по модулю и разными по знаку. Ограничивая значение этих весов по модулю, можно с переобучением до какой-то степени побороться. Мы рассматривали два способа регуляризации: L2-регуляризатор добавляет к функционалу потерь слагаемое, равное сумме квадратов весов нашей линейной модели с множителем λ; L1-регуляризатор использует вместо суммы квадратов сумму модулей весов. Регрессия с L2-регуляризатором называется ридж-регрессией или гребневой регрессией, а с L1-регуляризатором — лассо. Очень важно, что константное слагаемое в регуляризатор входить не должно. Штрафуя за большое значение константы, переобучение мы не уменьшим, а вот качество моделей и на обучающей, и на тестовой выборке упадет очень сильно. Чтобы понять, чем отличаются L1 и L2-регуляризаторы давайте рассмотрим простой модельный пример. Пусть матрица «объекты-признаки» X — квадратная, диагональная и единичная, то есть на ее диагонали стоят единицы, а вся остальная часть заполнена нулями. В этом случае решение метода наименьших квадратов дает вектор весов w со звездочкой, j-тая компонента которого равна yj-тому. Если мы делаем гребневую регрессию, то j-тая компонента w уменьшается в (1 + λ) раз. Если мы делаем лассо, формула для j-той компоненты вектора весов более сложная. Давайте посмотрим на графики. На графиках показана зависимость j-той компоненты оптимального вектора весов w со звездочкой от yj-того. Если мы минимизируем среднеквадратичную ошибку, не используя регуляризаторы, то эта зависимость единичная, то есть wj-тое и yj-тое всегда одинаковые. На графиках — это пунктирная диагональная линия. Если мы использует регуляризацию L2, зависимость wj-тое со звездочкой все еще линейная, но веса прижаты к нулю. Лассо делает кое-что более интересное. Оптимальные веса лассо также прижимаются к нулю, однако в середине на этом графике появляется интервал размером λ, в котором веса обращаются в ноль в точности. То есть если у нас значению отклика маленькое, то вес получается нулевым. Именно поэтому лассо отбирает признаки. Если у признаков низкая предсказательная способность, в лассо они получают нулевой вес и таким образом из модели исключаются. С другой стороны, посмотреть на регуляризацию можно, если рассмотреть, как устроена ошибка регрессии. Давайте посмотрим на матожидание квадрата этой ошибки. Оно представляет собой сумму трех компонент. Первая компонента — это квадрат смещения, то есть квадрат разности между математическим ожиданием регрессионной модели, оцениваемой по выборке, и истинной неизвестной нам регрессионной модели. Вторая компонента — это дисперсия нашей выборочной оценки. А третья — это дисперсия шума, на который повлиять мы никак не можем. Метод наименьших квадратов дает оценки, которые имеют нулевое смещение. Однако, используя регуляризацию, мы можем получить оценки, у которых матожидание квадрата ошибки меньше за счет того, что дисперсия у них может быть меньше, несмотря а то, что эти оценки смещенные. Чтобы лучше понять баланс между смещением и дисперсией, представьте, что вы стреляете по мишеням. Среднее количество очков, которое вы при этом набираете, определяется двумя величинами: во-первых, средним облака точек, которое образуют результаты ваших выстрелов; во-вторых, разбросом выстрелов относительно этого среднего, то есть дисперсией. Естественно, больше всего очков вы получите, если вы будете стрелять точно и в цель. В этом случае у вас может быть какое-то небольшое смещение и маленькая дисперсия. Переобучение в линейных моделях приводит к тому, что вы стреляете с цель, но не точно. Смещения у вас нет, но дисперсия очень большая. Часто оказывается, что можно набрать больше очков, если вы будете стрелять не совсем в цель, но более точно. Именно это позволяет сделать использование регуляризации в линейных моделях. В байесовской статистике гребневая регрессия соответствует заданию нормального априорного распределения на коэффициенты линейной модели, а метод лассо — заданию Лапласовского априорного распределения на коэффициенты. Подробнее о байесовской статистике вы узнаете из гостевого видео, которое вас ждет в конце этого урока. Задача гребневой регрессии имеет аналитическое решение. К матрице X транспонированное X, которая обращается в методе наименьших квадратов, вы добавляете диагональную матрицу, у которой на диагонали стоят значения λ — веса при регуляризаторе. Для решения задачи лассо аналитического решения не существует. Однако есть очень эффективный численный способ получения решения, поэтому методом лассо тоже можно прекрасно пользоваться. Итак, в этом видео мы поговорили про регуляризацию как один из способов борьбы с переобучением линейных регрессионных моделей. Регуляризация приводит к тому, что вы получаете смещенные оценки коэффициентов модели, но суммарная ошибка таких моделей может быть меньше за счет того, что оценки коэффициентов имеют меньшую дисперсию. Это справедливо и для L1, и L2-регуляризации, однако про L1-регуляризацию мы еще выяснили, что она отбирает признаки, обнуляя веса у некоторых коэффициентов, и разобрались в том, почему так происходит. В следующем видео мы поговорим про логистическую регрессию.