Профессиональная конференция для Go‑разработчиков

Жизнь после Greenplum: выбор Open Source-решения для аналитики

BigData и инфраструктура машинного обучения (data engineering)

Базы данных / другое
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе рассматривается опыт перехода с Greenplum на альтернативные решения для аналитической платформы. Описываются причины поиска новых решений, критерии их выбора, а также практический опыт внедрения Iceberg, Trino и S3. Особое внимание уделяется опыту использования выбранной архитектуры.

Целевая аудитория

Архитекторы и разработчики платформы данных, также будет интересно инженерам и аналитикам данных.

Тезисы

Доклад рассматривает роль Greenplum (GP) в текущей аналитической платформе и ожиданиях по фичам, которые должны были появиться с выходом GP 7. Но после закрытия проекта как Open Source-решения, сроки доступной production-ready сборки GP 7 сдвинулись на неопределенный срок.

Обсуждаются ключевые критерии выбора новых решений, таких как масштабируемость и совместимость. Посмотрим на альтернативы с акцентом на концепцию Data Lake House (DLH). Разберем преимущества технологий для реализации DLH: Iceberg, Trino и S3 и что делает их привлекательными для современных проектов.

В заключение перейдем к практике. Разберем успешный кейс внедрения production DLH для обработки данных clickstream, с которыми на Greenplum работать ресурсоемко.

Петр Гуринов

Лемана ПРО (Леруа Мерлен)

Руководитель практики инженерии данных в Лемана ПРО (Леруа Мерлен). Отвечает за рост дата-инженеров в компании, запускает RnD-проекты, внедряет lakehouse.

Лемана ПРО (Леруа Мерлен)

Лемана ПРО (Леруа Мерлен) — лидер рынка DIY в России. Переосмысливают DIY-ретейл так же, как другие технологические лидеры до этого меняли банкинг и IТ-сервисы. В компании можно с нуля создавать диджитал-решения, примерять разные роли, использовать современные технологии, запускать новые продукты.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)