Фестиваль РИТ++ 2016 завершён. Изучайте презентации, смотрите фотографии и ждите видео :)
Профессиональная конференция для серверных веб-разработчиков

Малоизвестные грабли A/B тестирования и роль контрольных экспериментовТестирование, A/B-тестирование

Доклад принят в программу конференции
Роман Поборчий

В числе моих мест работы Sun Microsystems, где я делал Java; Intel, где я опять делал Java (проект Apache Harmony, части которого впоследствии были включены в платформу Android) и Яндекс, где я занимался оценкой качества поиска, в том числе и пользовательскими экспериментами. С середины 2015 года я изменил род деятельности и занимаюсь тренингами по презентациям для IT'шников, но накопленный опыт-то никуда не девается, и поделиться им хочется.

Многие считают, что провести A/B эксперимент просто, тем более, что уже есть инструменты, которые позволяют автоматизировать этот процесс. При этом почти никто не задумывается о допущениях, на которых основана работа этих инструментов. По-настоящему случайное распределение пользователей, независимость измеряемых событий — либо всё это кажется само собой разумеющимся, либо об этом вовсе не задумываются.

Между тем систему проведения экспериментов на пользователях очень легко сломать, поставив её в неподходящие условия, и потом принимать по результатам экспериментов решения, не отличающиеся от случайных. В докладе мы рассмотрим несколько примеров из мировой индустрии и из практики Яндекса. Если вы делаете у себя A/B тестирование, то хотя бы одна из этих проблем у вас почти гарантированно есть.

Как одно из средств мониторинга здоровья системы экспериментов предлагается проведение постоянного A/A эксперимента, то есть такого, у которого контрольная и экспериментальная группы пользователей видят одно и то же. Есть довольно много классов проблем, которые можно выявить с помощью этого мониторинга. Единственно, делать его довольно накладно, если у вас мало пользователей, но и на этот случай есть пара лайфхаков, которые мы тоже рассмотрим.

Другие доклады секции Тестирование, A/B-тестирование