РИТ++ 2017 завершён. Ждем вас на BackendConf 2018! Подать заявку на доклад

TDI: высокочувствительная метрика для A/B экспериментов с поискомТестирование, A/B-тестирование

Доклад принят в программу конференции
Роман Поборчий
self-employed

В числе моих мест работы Sun Microsystems, где я делал Java; Intel, где я опять делал Java (проект Apache Harmony, части которого впоследствии были включены в платформу Android) и Яндекс, где я занимался оценкой качества поиска, в том числе и пользовательскими экспериментами. С середины 2015 года я изменил род деятельности и занимаюсь тренингами по презентациям для IT'шников, но накопленный опыт-то никуда не девается, и поделиться им хочется.

Тезисы

Задача правильно отранжировать контент, который есть на сайте, встречается часто. Многие магазины, сайты с вакансиями, агрегаторы новостей в последнее время стали понимать, что показывать пользователю объекты в случайном порядке или в хронологическом порядке их появления в базе недостаточно, и улучшают свои алгоритмы поиска и ранжирования.

Однако проверить более высокую эффективность нового алгоритма экспериментом оказывается непросто: разрешающая способность классических метрик A/B-тестирования часто недостаточна, чтобы увидеть результат работы нового алгоритма.

В веб-поиске алгоритмы, смешивающие результаты двух ранжирований незаметно для пользователя, известны в узких кругах с 2008 года, однако опыт общения с разработчиками на конференциях говорит, что за пределы поисковых компаний это знание не выбралось. Это упущение хочется исправить.

В докладе я рассмотрю уже ставший классическим алгоритм Team-Draft interleaving, дающий возможность проводить эксперименты на пользователях поиска и получать высокую значимость при сравнительно небольших объёмах данных. Также я расскажу о нескольких проблемах, с которыми столкнулся при эксплуатации этого алгоритма, и об их решениях.

Алгоритмы и их сравнение

Другие доклады секции Тестирование, A/B-тестирование