В этом видео мы поговорим об оценке качества в онлайн-эксперименте. Допустим, оффлайновое качество получается хорошим. На исторических данных алгоритм работает крайне неплохо. Значит ли это, что алгоритм будет хорошо себя показывать в бою? Будет ли он действительно давать хороший экономический эффект? Совсем не очевидно. Для этого нам нужно проводить онлайн тестирование. Первая идея, которая приходит в голову — сделать A/B тест: в одной группе использовать алгоритм, в другой группе использовать либо предыдущую версию алгоритма, либо вообще ничего не использовать для рекомендации. Следующая мысль — после A/B теста применять какой-нибудь статистический тест для того, чтобы проанализировать результаты. Итак, как вы уже знаете, в A/B тесте мы случайным образом делим пользователей на равные группы, измеряем какие-то целевые метрики (ну например, количество заказов или доход в каждой группе за период времени теста), получаем какое-то число для каждой группы, и теперь нам нужно сделать какой-то вывод. Ну действительно: пусть в одной группе было заработано 100 млн. рублей, а в другой группе было заработано 105 млн. рублей. Значит ли это, что во второй группе алгоритм отработал лучше? Совсем не очевидно, это может быть просто случайностью. Сейчас вы видите на графике результаты трех групп, равных по размеру, полученных случайным отнесением пользователей к одной из трех групп. Здесь вы видите доход в каждой группе. И, как вы видите, одна из кривых с какого-то момента существенно выше других и, казалось бы, более-менее стабильно выигрывает где-то 10% дохода. Так вот, это разбиение на самом деле случайное, и такое вполне себе бывает, уж особенно с доходом, потому что доход — довольно шумная метрика. Несмотря на то, что такие случайности бывают, с помощью статистических тестов можно как-то побороться с такими проблемами. На практике часто применяется приближение нормальным распределением, ну то есть вы считаете, что покупка совершается с некоторой вероятностью P. Исходя из этого, из центральной предельной теоремы, можете оценить дисперсию для разности количества покупок в двух группах и получить какие-то оценки на каком-то уровне значимости. Также часто используется тест Стьюдента, и часто используется бутстреп, особенно в случае, когда вам нужно получить какой-то статзначимый результат по доходу. При онлайновом тесте смотрят на многие метрики. В первую очередь, конечно, важнее всего доход в группе или прибыль в группе. Но не всегда можно сделать выводы из этой метрики. Так получается, что статзначимость по доходу нужно ждать очень долго, и, может быть, даже нельзя дождаться за какое-то разумное время. Можно смотреть на доход с пользовательской сессии, если разбиение на группы все же не получилось сделать совсем уж равномерным. Можно смотреть на среднюю стоимость купленного товара и на средний чек. В чеке, конечно, может быть несколько товаров. Можно смотреть на конверсию в покупку (то есть какая доля пользователей, которые приходят на сайт, что-то покупают), на клики, на клики конкретно по блокам рекомендаций, и можно смотреть на количество покупок и на доход в разных моделях атрибуции. Ну то есть относить к заслугам рекомендательной системы те покупки, которые были сделаны после просмотра рекомендации или после клика на рекомендацию. При этом бывают разные модели атрибуции. Бывает last click, когда мы считаем результат, то есть покупку, следствием последнего взаимодействия пользователя с товаром. Бывает first click, когда мы считаем, что покупка — это следствие первого взаимодействия с товаром. Бывают другие модели атрибуции. Итак, мы поговорили с вами об онлайн тестировании качества. Вспомнили, что в таких ситуациях нужно проводить A/B тесты, поговорили про статзначимость и обсудили метрики, которые могут быть интересны в онлайн тесте рекомендаций.