[БЕЗ ЗВУКА] В этом видео мы начнем разговор о том, как можно измерять качество в задачах классификации. И, на самом деле, мы уже знаем некоторый ответ на этот вопрос. Мы использовали долю неправильных ответов, чтобы обучать линейные классификаторы. Она считается очень просто. Мы для каждого объекта выборки выясняем, дает ли алгоритм правильный ответ или нет, и если дает неправильный ответ, то записываем единичку, если правильный — то нолик, и усредняем эти нолики и единички по всем объектам выборки. Так вышло, что в задачах классификации метрики принято выбирать так, чтобы их нужно было максимизировать, тогда как в регрессии метрики были такие, что мы их минимизировали, например среднюю квадратичную ошибку или квантильные потери. Чтобы максимизировать долю неправильных ответов, нужно ее немножко модифицировать и превратить в долю правильных ответов, или accuracy на английском. Она вычисляется точно так же: мы усредняем по всем объектам выборки индикаторы того, что на данном объекте алгоритм выдает правильный ответ. Это очень простая метрика качества, которая широко используется, но при этом у нее есть две проблемы. Давайте поговорим о них подробнее. Проблема первая связана с несбалансированными выборками. Давайте рассмотрим простой пример. Пусть в выборке 1000 объектов, из них 950 относится к классу −1, и 50 — к классу +1. И при этом рассмотрим константный алгоритм a(x), который на всех объектах, абсолютно всех объектах возвращает ответ −1. Этот алгоритм бесполезен, не имеет смысла его использовать ни в каких задачах. Он не восстанавливает никакие закономерности в данных. При этом его доля верных ответов на данной выборке будет равна 0,95 или 95 %. Это очень много, но не соответствует нашим ожиданиям. Понятно, что проблема именно в несбалансированности. В том, что одного из классов сильно больше, чем другого. Чтобы бороться с этой проблемой, имеет смысл измерять долю объектов самого крупного класса в данной выборке. Обозначим это через q₀. В нашем случае самый крупный класс — это −1, и доля объектов этого класса равняется как раз 95 %. Это означает, что доля правильных ответов для разумных классификаторов будет лежать в интервале от q₀ до 1, от 0,95 до 1, а не от 1/2 до 1, как мы могли бы ожидать в случае с бинарной классификацией. Еще раз совет на случай, если вы настроили некоторый классификатор и получили большую долю верных ответов — посмотрите на баланс классов. Возможно, дело не в том, что вы построили хороший классификатор, а в том, что просто одного из классов сильно больше, чем другого, и из-за этого легко получить высокую долю верных ответов. Вторая проблема, которая имеется в доле верных ответов — это то, что она никак не учитывает разные цены разных типов ошибок, тогда как цены действительно могут быть разными. Давайте разберем простой пример. Рассмотрим задачу кредитного скоринга, в которой нужно для клиента банка, который просит кредит, понять, выдавать ему кредит или не выдавать, вернет он этот кредит или не вернет. И представим, что у нас есть две модели. Первая модель говорит, что нужно выдать кредит ста клиентам. При этом если мы их выдадим, то из них 80 вернут деньги, а 20 не вернут. Вторая модель более консервативная. Она говорит, что нужно выдать кредит всего 50 клиентам, и если мы это сделаем, то из них 48 вернут кредит и всего 2 не вернут. Непонятно, какая из этих моделей лучше. Вторая модель более консервативная. Если мы воспользуемся ей, то практически все клиенты вернут кредиты, но при этом многим мы кредиты не дадим, хотя они вернули бы деньги. Мы не заработаем. Первая модель рискует сильнее, она выдает кредиты большему количеству человек, мы заработаем больше, но при этом и будут некоторые потери, связанные с тем, что 20 клиентов кредит не вернут. И в зависимости от того, каковы потери от невозврата кредита, можно отдать предпочтение либо одной модели, либо другой. Таким образом, нужны какие-то дополнительные метрики качества, которые позволяют учесть цену той или иной ошибки. Об этом будем говорить в следующем видео. Итак, мы поговорили про основную метрику качества классификации, долю верных ответов, и обсудили, что у нее есть две проблемы. Первая связана с неадекватными значениями в случае с несбалансированными выборками, а вторая — с тем, что данная метрика качества не умеет учитывать цены ошибок. А в следующем видео мы поговорим о том, как можно учитывать разные цены ошибок при разных типах ошибок классификации.