Максим Гудзикевич на GolangConf 2023

Как собрать граф данных на основе логов операций MapReduce системы

Базы данных и системы хранения

Базы данных / другое

Аналитика / другое

Обработка данных

Доклад отклонён

Целевая аудитория

1. Поставщики и потребители данных, связанные с dwh/dmp системами, дата-инженеры, дата-аналитики 2. Пользователи систем с реализацией MapReduce вычислений, которые хотят построить Data Lineage 3. Разработчики из process mining области

Тезисы

В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее и сложнее. В этой ситуации помогают каталоги данных, однако, информация в них, как правило, заполняется пользователями собственноручно и/или из ERM-связей небольших БД. Мы же во внутреяндексовом DataCatalog научились автоматически на основе логов ETL операций и adhoc расчетов собирать Data Lineage системы YTsaurus, наладив контакты между поставщиками и потребителями и обеспечив поиск нужных сущностей данных.

Расскажем, как повторить наше решение в другой логирующейся MapReduce/Spark системе, а также ответим на главные вопросы при каталогизации:
- Что делать, если в MapReduce системе данные пишутся во временные таблицы, которые не интересны конечному пользователю?
- Как оптимально обрабатывать большие объемы данных, чтобы не потерять целостность метаинформации?
- Что делать, если в системе есть символические ссылки и почему это вообще проблема?

Максим Гудзикевич

Яндекс

Окончил ФКН ВШЭ, работал в Яндексе в команде Вики, а после занялся разработкой внутреннего каталога данных DataCatalog. В свободное время ищу новые лего минифигурки для коллекции, читаю мангу и делаю игры.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, облачная платформа, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например: CatBoost, DivKit, YDB, userver, YaLM.