[ЗАСТАВКА] В этом видео мы начинаем знакомство с метрическими алгоритмами. Метрические алгоритмы — это методы, которые предполагают, что в пространстве признаков введено понятие расстояний, или, как говорят в математике, метрики. Мы начнем с самого простого метода — метода ближайшего соседа для задачи классификации. Он устроен действительно очень просто. Давайте попробуем понять, как мы можем отнести какую-то новую точку к какому-то классу. Давайте посмотрим, как она расположена относительно уже известных из обучающей выборки точек. Посмотрим, какая точка из обучающей выборки ближе, и отнесем новую точку к тому же самому классу. Вот и весь метод. Можно этот метод модифицировать. Действительно, принимать решения по одной точке может быть не очень надежно. Но давайте посмотрим на k ближайших точек. И посмотрим, какой класс среди них доминирует, ну то есть кого среди них больше, и отнесем новую точку к этому классу. В этот алгоритм можно логично добавить веса объектов. Веса могут зависеть от номера соседа, ну то есть первый сосед, второй сосед, в зависимости от близости, а могут зависеть от расстояния до соседа. И когда у нас введена функция весов, мы определяем класс очень просто. Просто берем и подсчитываем сумму весов для одного класса, и сумму весов для другого класса. И принимаем решение, к какому классу отнести на основе того, какая сумма получилась больше. Можно придумать и еще более простой метрический классификатор, например, посчитав центр одного класса, центр другого класса, ну просто как среднее арифметическое точек, которые входят в один и в другой класс, и посмотрев, какой центр ближе к новой точке. К этому классу и будем относить. С помощью метода k ближайших соседей можно решать так же задачу регрессии. Здесь всё то же самое, только теперь мы суммируем не просто веса объектов, а суммируем веса, умноженные на значение функции, которую мы хотим приблизить, в этих объектах. Ну и, конечно, надо нормировать всё на сумму всех весов. Обратите внимание — в зависимости от того, какие веса мы выбираем, наше решение может обладать какими-то дополнительными свойствами. Ну, например, если мы будем решать задачу регрессии и в качестве веса будем использовать 1 делить на расстояние до объекта, то тогда наш результат будет заметно переобучен. Само собой, в каждой точке из обучающей выборки вес этой точки будет бесконечно большим. И он будет забивать веса других точек. Поэтому к выбору функции весов нужно подходить очень внимательно. Подведем итог. Мы познакомились с методом k ближайших соседей, выяснили, что в него очень органично можно добавлять веса объектов и узнали, что его можно использовать как для задач классификации, так и для задач регрессии.