Эволюция наблюдаемости: от кастомного трейсинга к OpenTelemetry

Через тернии к...

Распределенные системы
GO
Типовые ошибки

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Широкая аудитория разработчиков нагруженных систем с большим количеством пользователей. Доклад будет интересен тем, кто планирует развивать собственные инструменты трейсинга, а также тем, кто планирует переход на OpenTelemetry.

Тезисы

Трассировка — один из трех базовых типов телеметрии и один из столпов наблюдаемости. С переходом от монолитной архитектуры к микросервисам нам стало очевидно, что текстовых логов больше недостаточно и мы решили развивать собственную библиотеку для трейсинга.

Но что случается, когда собственные технологии встречаются с реальным хайлоадом? Что делать, если мы хотим хранить данных больше, чем позволяет собственный стек технологий? Что делать, когда данные оказываются куда более уникальными, чем закладывалось? Что делать, если человеческий фактор сводит на нет плюсы технологий?

Я расскажу, как мы в целом переосмысливали процесс трейсинга, как выстраивали расследование и выявляли проблемные места, с какими вызовами мы столкнулись при миграции с schemaless на schemafull базу данных, как построили процесс бесшовного перехода, почему отказались от старой парадигмы и какие уроки вынесли из этого многолетнего путешествия.

Лейла Кочкарова

Лаборатория Касперского

Go-разработчик в Лаборатории Касперского. Ментор VK Education, SafeBoard и инклюзивном проекте «Попробуй профессию в деле». Развивает плагин для людей с дислексией, исследует эволюционные алгоритмы и совмещает разработку и профессиональный спорт.

Видео