Профессиональная конференция для Go-разработчиков

Как наши системы приобретают устойчивость, почему ошибки полезны, и как начать их использовать во благо

Эксплуатация систем

Эксплуатация систем / DevOps-практики и культура

Отказоустойчивость
Менеджмент в эксплуатации
Управление инцидентами
Надёжность продакшена
DevOps / SRE

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Сергей расскажет, как правильно работать с ошибками, но не просто даст какие-то советы, а погрузится в тему анализа, работы с инцидентами и получения от них максимальной пользы на будущее. Полезно как начинающим, так и «бывалым» специалистам.

Целевая аудитория

Всем, кто участвует в цикле решения инцидентов и эксплуатации систем: разработчики, тестировщики, администраторы и SRE, инженеры эксплуатации, менеджеры и руководители инженерных команд.

Тезисы

На текущий день не так легко найти человека, который постоянно работает только над небольшой частью кода и не затрагивает остальных частей системы вокруг него. В такой ситуации возможность ошибки или конфликта велика, а значит, мы вынуждены уметь с ними бороться.

В докладе на примере существующих информационных систем я раскрою понятие самой «системы» и процессов взаимодействия с ней, а также помогу с новой стороны посмотреть на природу отказоустойчивости. С примерами и ссылками расскажу о том, какую реальную пользу могут принести инциденты и как эффективнее извлекать уроки из подобных событий. Не ограничимся стандартными «пишите post-mortem ©», а затронем тему практической пользы анализа.

Сергей Реусин

СберМаркет

SRE Lead. 5 лет непрерывной практики эксплуатации production-систем, проектирования отказоустойчивых систем, борьбы со сбоями и их качественного анализа.

СберМаркет

СберМаркет (ООО «Инстамарт Технолоджис») — технологический онлайн-сервис, который помогает делать покупки не выходя из дома. Tech-команда СберМаркета создает один из самых сложных высоконагруженных e-commerce-проектов в России и делает это с любовью.

Видео