[ЗАСТАВКА] На прошлой видеолекции мы с вами рассмотрели метрические методы классификации, основанные на идее измерения расстояний между объектами. Эту же идею можно перенести и на задачу восстановления регрессии. Задача регрессии, у нас обычно задана обучающая выборка, пара «объект-ответ», в которых ответы — это действительные числа. И стандартным подходом к решению регрессионных задач является фиксация некоторой параметрической модели зависимости функция f от объекта x и вектора параметров α и определения той вектора параметров с помощью метода наименьших квадратов. Для этого выписывается функционал среднего квадрата ошибки и ставится оптимизационная задача: найти вектор параметров, доставляющего этому функционалу минимум. Мы рассмотрим этот функционал в несколько обобщенном виде и введем веса объектов или степени важности объектов обучающей выборки. Недостатком этого подхода является то, что параметрическую модель зависимости необходимо знать заранее, и она должна быть адекватной моделью искомой зависимости. Далеко не всегда в распоряжении исследователей имеются такие модели, поэтому хотелось бы отходить от параметрического подхода. Идеи непараметрических методов заключаются в том, чтобы приблизить искомую зависимость константы, но локально в окрестности того объекта x, в котором мы хотим вычислить нашу аппроксимирующую функцию. Чтобы это сделать, мы снова воспользуемся методом наименьших квадратов, вместо параметрической модели зависимости подставляем константу α, но теперь вся сложность задачи у нас перемещается в веса объектов. Мы задаем эти веса wi в зависимости от того объекта, в котором мы ищем значение аппроксимирующей функции. Ну мы уже с вами познакомились в предыдущей видеолекции с такими конструкциями и понимаем, что вес, который, тем меньше, чем дальше объект x до объекта обучающего выборки xi, можно задать с помощью функции расстояния, к которому применяется ядро, некое не возрастающее, ограниченное и, желательно, гладкая функция. Ширина окна h позволяет варьировать скорость убывания этой функции по мере возрастания расстояния между объектом x и объектом обучающей выборки. Эта задача очень легко решается. У нас функционал Q(α), нам необходимо найти его минимум, продифференцируем по α, приравняем 0 производную и отсюда найдем α. Это очень простое упражнение, которое я предлагаю вам сделать самостоятельно. Ответ записан ниже, получилась формула, которая называется формулой Надарая-Ватсона или формулой ядерного сглаживания, которая устроена очень просто. Это просто средневзвешенное значение ответов yi на объектах обучающей выборки, а вот веса зависят от того, насколько i-тый объект далек от того объекта x, в котором мы вычисляем эту функцию — чем дальше, тем меньше вес. В качестве ядер используют разные функции. На слайде показаны самые типичные представители ядер и видно, что степень гладкости ядра, она же определяет и степень гладкости аппроксимирующей функции, например, если мы возьмем прямоугольное ядро, то мы получим кусочно-постоянную функцию, если треугольную, то кусочно-линейную функцию, но если мы возьмем гаусовское ядро, которое гладкое и бесконечное число раз дифференцируемое, то этими же свойствами будет обладать и аппроксимирующая функция. Ну давайте разберемся, на что влияет вид ядра и на что влияет ширина окна — это два самых важных параметра в этой модели, и поэтому интересно посмотреть на примерах. Давайте возьмем вот такую вот функцию, это эксперимент на синтетических данных. Функция задана в точках хаотической сетки, и какой-то шум наложен на эти точки. И мы будем строить непараметрическую регрессию с разными ядрами и при разных значениях ширины окна. Ну вот здесь красная линия показывает, что происходит, когда ширина окна маленькая, окно узкое, и в этом случае у нас наша зависимость слишком точно воспроизводит те шумы, которые мы набросили на наше значение yi. По мере увеличения ширины окна происходит сглаживание, но в какой-то момент это сглаживание уже становится избыточным и видно, что если черная кривая нам кажется более-менее оптимальной для данного набора точек, то синяя уже явно пересглажена и это окно слишком широкое. Отсюда можно сделать вывод, что ширина окна критическим образом влияет на точность аппроксимации, а вот вид ядра влияет на гладкость. Здесь мы взяли гаусовское ядро и получили гладкую функцию при любом значении ширины окна. А вот, что произойдет, если мы возьмем треугольное ядро. Функция получится кусочно-линейной, и свойство этого ядра еще состоит в том, что оно финитное, то есть оно ненулевые значения принимает только на отрезке от −1 до +1, то есть в рамках окна, и видно, что есть такие точки, в окно которых не попадает ни одного объекта обучающей выборки, если это окно узкое. И вот красная линий даже у нас получилась разрывной. Возьмем еще одно ядро — прямоугольное. Теперь мы получим кусочно-постоянную функцию, и тоже видно, что при слишком узком окне у нас не во всех точках мы даже в состоянии определить значение аппроксимирующей функции. Таким образом, мы увидели на примере, что выбор ядра существенно влияет на гладкость аппроксимирующей функции, но на точность аппроксимации влияет не слишком сильно. Если гладкость нам безразлична, то и не так уж важно, какое ядро выбрать. А вот ширина окна существенно влияет на качество аппроксимации, здесь очень важен оптимальный подбор ширины окна, есть много разных способов это сделать, один из самых распространенных — это использовать скользящий контроль. Еще одна тонкость возникает в тех задачах, где распределение объектов по пространству неравномерно, есть области локальных сгущений, есть области, где объекты расположены реже, и в этих случаях, конечно, в местах локальных сгущений, ядро должно определять окно небольшой ширины, значит, ширину окна надо определять по количеству объектов попадающих в окрестность. В местах, где более разреженные данные, окно может быть более широким. Способ выбрать это заключается в том, чтобы положить ширину окна в точке x, равное расстоянию до K + 1 соседа данного объекта x. И краткое резюме. Непараметрическая регрессия — это способ избежать использования в явном виде параметрической модели зависимости. Однако природу не обманешь, и все равно нам приходится моделировать, и неявным образом модель заключается в том, что мы подбираем функцию расстояния. Если мы адекватным образом определили расстояния между объектами, то все у нас будет хорошо, а если мы расстояния определили как-то не так, то и ждать хорошей точности аппроксимации не приходится. Несмотря на то, что метод очень прост, в нем есть, что обучать. Можно определять число ближайших соседей или ширину окна, также можно поиграться с весами объектов, и один такой метод мы рассмотрим в следующей видеолекции. Ну и если говорить о применениях, то очень частое применение непараметрической регрессии — это предварительная обработка данных, когда нужно убрать шум на какой-то кривой, сигнале или временном ряде. Это очень частый способ применения непараметрической регрессии. [ЗАСТАВКА]