Как собрать граф данных на основе логов операций MapReduce системы
Доклад отклонён
Целевая аудитория
Тезисы
В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее и сложнее. В этой ситуации помогают каталоги данных, однако, информация в них, как правило, заполняется пользователями собственноручно и/или из ERM-связей небольших БД. Мы же во внутреяндексовом DataCatalog научились автоматически на основе логов ETL операций и adhoc расчетов собирать Data Lineage системы YTsaurus, наладив контакты между поставщиками и потребителями и обеспечив поиск нужных сущностей данных.
Расскажем, как повторить наше решение в другой логирующейся MapReduce/Spark системе, а также ответим на главные вопросы при каталогизации:
- Что делать, если в MapReduce системе данные пишутся во временные таблицы, которые не интересны конечному пользователю?
- Как оптимально обрабатывать большие объемы данных, чтобы не потерять целостность метаинформации?
- Что делать, если в системе есть символические ссылки и почему это вообще проблема?
Окончил ФКН ВШЭ, работал в Яндексе в команде Вики, а после занялся разработкой внутреннего каталога данных DataCatalog. В свободное время ищу новые лего минифигурки для коллекции, читаю мангу и делаю игры.
Яндекс
Видео
Другие доклады секции
Базы данных и системы хранения