YTsaurus SPYT: внедряем Spark SQL в массы

BigData и машинное обучение

Распределенные системы
Обработка данных
YTSaurus

Доклад принят в программу конференции

Мнение Программного комитета о докладе

История от разработчиков YTsaurus о том, как сделать собственный клиент к Spark и на уровне сетевого протокола отправлять к нему запросы из удобного веб-интерфейса.

Целевая аудитория

Разработчики платформ обработки данных узнают, как построить собственный SQL-сервис, дата-инженеры послушают, как совладать со Spark-сессиями, а неравнодушные к Apache Spark просто полюбуются на новый инструмент поверх этого классного фреймворка.

Тезисы

Apache Spark — замечательный инструмент дата-инженеров, который поддерживает языки Scala, Java, Python и другие. Но что бы ни было выбрано, вам неминуемо понадобится установить клиент, подключить библиотеки, настроить окружение. И для сложных расчётов это оправдано, их удобнее писать с кофе в какой-нибудь полюбившейся IDE. Однако иногда хочется оперативно выполнить SELECT на пару строчек, проверив гипотезу, и продолжить заниматься своими делами.

Именно для этой цели в YTsaurus развивается модуль Query Tracker, позволяющий прямо в браузере запускать SQL-like-запросы на разных движках: полноценном MapReduce, Clickhouse или Spark.

В этом докладе я расскажу: как строился сервис быстрых SQL-запросов поверх Apache Spark, какие готовые решения принесли пользу, а также что за монстры встретились в этом приключении.

Влюблённый в функциональное программирование дописыватель Apache Spark для YTsaurus. Работает внутри инфраструктуры Яндекса, встречается с распределенными системами каждый день.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео