Hadoop в 3 ДЦ

BigData и машинное обучение

Hadoop
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Петабайтные размеры данных давно перестали быть cutting-edge, и их можно встретить в огромном количестве организаций. With great power comes great responsibility — надо делать работу с данными экономически эффективной, а инфраструктуру — надежной и масштабируемой. Из доклада узнаем про это.

Целевая аудитория

Системные инженеры, поддерживающие Hadoop, инженеры данных, data science, аналитики.

Тезисы

До 2022 года в Ozon была практика переезда из одного кластера Hadoop в другой при смене дата-центра примерно раз в год-два.
А это значит заново создать всю инфраструктуру, переносить данные и клиентов, их код и согласовать это с тысячами интеграций, завязанных на прошлый кластер. Это было очень дорого и долго.

Долго, потому что в Ozon около 25 команд разработки использующих Hadoop. И поэтому дорого. В основном, это data-science-ребята, которые месяц занимались операционкой переезда.

Мы решили больше не проводить своих DE, DS и аналитиков через эти трудности и решили попробовать то, что все гайды по Hadoop категорически не рекомендуют, а именно, растянуть Hadoop на 3 DC.

В докладе расскажу:
* зачем нам вообще Hadoop;
* почему не 3 Hadoop-кластера, а один растянутый. PnL;
* какие у нас были вводные по железу, по данным и клиентам;
* как распределить данные. Репликация и шардирование;
* как раскидать потребителей YARN;
* какие результаты мы получили;
* планы. Своя BlockPlacementPolicy. 3+ DC.

Любит распределённые системы хранения и обработки данных.

Ozon

Ozon — ведущий e-com России. В их IT-команде уже 5 000 специалистов, которые создают продукты для миллионов людей по всей стране и за рубежом. Ozon Tech разрабатывает собственные решения, контрибьютит в Open Source и использует современный стек: Go, C#, Kotlin, Swift TypeScript, Vue.js, Kubernetes и Kafka. Они продолжают расти, чтобы повышать доступность сервисов и быть ещё ближе к пользователям.

Видео