YTsaurus и аналитические витрины с актуальностью в 15 минут

BigData и машинное обучение

Архитектурные паттерны
Распределенные системы
Архитектуры / другое
ETL
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Часто в ETL-процессах возникает потребность «считать часть данных не в batch-режиме, а в NRT». Из доклада мы узнаем, как эффективно реализовать такой процесс для big-data-инфраструктур на базе YTsaurus и при этом не наплодить параллельные вселенные для батча и стриминга.

Целевая аудитория

CTO/CDO. Инженеры данных и аналитики данных.

Тезисы

Что, если бизнесу нужны сложные аналитические витрины с актуальностью данных в минуты, а выходить в стриминговую обработку на CEP-движках, таких как Flink, дорого и overkill по скорости поставки данных? Есть ли компромиссное решение, не требующее полного разворота на 180 градусов от ETL-процессов, реализованных на SQL-диалекте? И, конечно, это решение должно быть масштабируемым до cотен ТБ. Поэтому это не PostreSQL.

«И оно есть у нас».
Триплет технологий YTsaurus + YQL + динамические таблицы позволили найти архитектуру поставок данных, повторяющую подход к обработке данных, заложенный в стриминге, но упрощающий реализации. Это дало нам достаточную скорость обработки данных в минуты, помноженную на технологии с невысоким входом и прозрачную для потребителя структуру промежуточных и конечных данных. И — вишенкой на торте — такие поставки интегрированы по данным классическим с T-1-поставками и их можно легко пересчитывать.

Деталями этой реализации на примере расчета быстрой Юнит Экономики в Яндекс Маркете мы и хотим поделиться.

Филипп Козьмин

Яндекс Маркет

* DWH Lead Яндекс Маркета.
* Руководитель дата-инженеров и разработчиков платформенных компонентов.
* Отвечает за IT-ландшафт DWH.
Более 10 лет работы в сфере обработки данных в крупнейших e-com, телеком-компаниях и банках России.

Яндекс Маркет

Маркет позволяет покупателям заказывать товары прямо из дома и получать заказы по всей стране, а партнёрам — развивать свой бизнес, повышая продажи и привлекая новых клиентов. Для этого команда Маркета строит архитектуру так, чтобы можно было быстро делать новые фичи и не ломать важные сценарии, учится выдерживать многократный рост нагрузки и не перерасходовать ресурсы, следит, чтобы сайт Маркета работал как надо. У них есть целый арсенал технологий: микросервисы и микрофронты, тыквы и gracefull degradation, отложенная обработка запросов и автоматические системы нагрузочного тестирования. Изменяют архитектуру всех сервисов Маркета и помогают продуктовым командам быстро и безопасно развиваться.

Видео