Брокер сообщений Kafka в условиях повышенной нагрузкиБазы данных

Доклад принят в программу конференции
Артём Выборнов
Rambler&Co

Ведущий разработчик отдела аудиторного сегментирования. Специализируюсь на архитектуре и инфраструктуре pipeline'ов больших данных. Занимаюсь созданием и развитием DMP-платформы компании Rambler&Co. Ранее занимался разработкой инфраструктуры в отделе машинного обучения.

Тезисы

Kafka - распределённый брокер сообщений, нашедший широкое применение как универсальная шина для больших данных. Kafka позволяет как реализовать realtime-обработку большого числа событий, так и построить батчевый pipeline по доставке логов.

Почему мы используем Kafka? Если коротко - унификация. А если чуть подробнее - десятки поставщиков, терабайты логов каждый день, онлайн- и офлайн-pipeline'ы - без единой высокопроизводительной шины данных с этим крайне сложно совладать.

Из доклада вы узнаете о том, почему мы перешли на Kafka, и как она вписалась в наш pipeline. Поймёте, как обеспечить exactly once доставку данных. Узнаете о том, как из-за одной опечатки в несколько раз выросла нагрузка на Kafka, и что мы из этого выяснили. Выясните, какие метрики Kafka стоит мониторить и как по ним понять, что что-то идёт не так.

Бэкенд / другое
,
Базы данных / другое
,
Распределенные системы
,
Администрирование баз данных
,
Devops / другое
,
Hadoop
,
ETL

Другие доклады секции Базы данных