Поиск по образцу на последовательностях строк в БД

Базы данных и системы хранения

Проектирование СУБД / Распределенные СУБД

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Полтора года назад YDB передали в опенсорс. Теперь многое можно узнать, почитав исходники. А можно послушать из первых рук — про MATCH_RECOGNIZE — одну из сложнейших SQL-конструкций. Особый интерес может вызвать часть про выполнение таких запросов на потоке данных.

Целевая аудитория

Разработчики БД, дата-аналитики, а также все, кто интересуется поиском по образцу на больших данных.

Тезисы

Скачать презентацию

Задача поиска по образцу на последовательности строк БД может возникать в различных сферах деятельности. Например, в финансовой аналитике — поиск определённых паттернов изменения цены акций; в системах борьбы с мошенничеством (AntiFraud) — поиск последовательностей событий, которые могут свидетельствовать о подозрительной активности, а также в IoT и многих других.

Для реализации таких запросов к базам данных в стандарте SQL:2016 была введена конструкция MATCH_RECOGNIZE, которая постепенно появляется в популярных базах данных с тем или иным набором ограничений, т. к. конструкция довольно сложная и имеет большое количество особенностей и режимов работы.

В своём докладе я расскажу о реализации MATCH_RECOGNIZE в YDB: о том, как это работает под капотом, какие подходы и алгоритмы реализованы, с какими сложностями мы столкнулись.

Отдельная часть выступления будет посвящена отличиям в обработке аналитических запросов на табличках и обработке на потоках «живых» данных. Какие возникают ограничения при обработке потоков, как бороться с большим стейтом, необходимым для накопления цепочек совпадений на сложных образцах и пр.

Евгений Зверев

Яндекс

Евгений занимается разработкой YDB-платформы в компании Yandex. До этого работал в крупных IT-компаниях в области финансов и в сфере информационной безопасности.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.