Профессиональная конференция для Go-разработчиков

Выбор стримингового фреймворка в 2024 году

BigData и машинное обучение

ETL
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Spark, Flink, Nifi или что-то другое — какой стриминговый фреймворк выбрать в текущем году? Из доклада вы узнаете основные критерии для выбора, на что обращать особое внимание. И все это на основе практического опыта.

Целевая аудитория

Будет интересно тем, кто собирается вливаться в стриминг или думает, правильный ли стриминговый фреймворк выбрал.

Тезисы

Рано или поздно в компании, у которой есть DWH, возникает потребность считать витрины/отчеты/мониторинг в близком к реальному времени (или быстрее настолько, что текущие системы не справятся). И нужно выбрать подходящую для этого технологию.

Apache Spark Streaming лучше подойдёт, если у вас нет потребности в real time и миллисекундных задержках. Для sub-second-задержек лучше подойдёт Apache Flink. Но не Spark и Flink едиными. Есть, например, Apache Storm, у которого сейчас довольно мало контрибуций, но при этом он всё ещё релизится. Или Apache Samza, о которой есть доклад разработчиков из Одноклассников. Мне кажется, что и её будущее предрешено, учитывая мизерное количество новых коммитов. Можно ещё попробовать Kafka Streams, но тогда управление ресурсами — это уже ваша задача.

А как обстоят дела с решением реальных задач? Кейсы, которые часто решают на стриминговой платформе — объединение (join) двух потоков. Spark и Flink справятся с этой задачей, но сделают это по-разному.

Это и не только обсудим на докладе.

Максим Буйлин

Тинькофф

11+ лет занимается разработкой, преимущественно на Java, но была и Scala/Bash/Javascript и даже Groovy.
Последние 7 лет занимался дата-инженерией на Hadoop и Spark, но сейчас переключился на Flink.

Тинькофф

Тинькофф

Видео