Профессиональная конференция для Go‑разработчиков

Искусственный vs естественный интеллект в задачах разметки

Нейронные сети и искусственный интеллект (data science)

Machine Learning
ML
Расширение кругозора
Лайфхаки

Доклад принят в программу конференции

Целевая аудитория

DS- и ML-инженеры и все те, кому интересна задача сбора и разметки больших данных для обучения и валидации нейронных сетей в эпоху LLM.

Тезисы

Пройдемся по следующим темам:
* разметка в эпоху до LLM и сильных SOTA-решений;
* практические кейсы в домене CV: SAM для задач детекции и сегментации, VLM для кепшенинга изображений и видео;
* практические кейсы в домене NLP: SOTA-решения в задаче описания, суммаризации, рерайтинга больших пластов текста;
* практические кейсы в домене звука: транскрибация аудио, озвучка в режиме сингл- и мультиспикер. Кросс-модальная разметка для задач видео и аудио;
* появление LLM на арене: ускорение разметки, синергия человека и нейросетей;
* специализированная разметка: когда нейронные сети не справляются;
* синтетические данные и как очистить авгиевы конюшни;
* что делать, когда кончится Интернет?

Руководит исследовательскими ML-командами в SberDevices. В прошлом инженер-железячник в области цифровой обработки сигналов на FPGA и ASIC, в частности, для обработки изображений и звука. Автор топовых лекций по обработке сигналов и регулярный спикер на научно-технических конференциях. Активный контрибьютор в Open Source.

SberAI

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberJazz, GigaChat, Kandinsky и другие легенды.

Мастер спорта по AI-first разработке и энтерпрайз вайб-кодингу: люблю копаться внутри технологий и тулинга кодогенерации, строить evals/harness, считать экономику и реальную эффективность команд в пост-LLM эпоху и участвовать в пересборке того, как вообще будут выглядеть процессы создания продуктов в новой реальности.

Обожаю GenAI. Глубоко разбираюсь в AI-агентах и их внедрении в сложные бизнес-процессы (аналитика, обработка документов, описание данных). Руковожу разработкой и продуктизацией LLM-based/AI-продуктов, одинаково хорошо понимаю инженеров и бизнес-заказчиков.

Верю в голос как интерфейс и автономные системы с минимальным участием в них человека.

Сбер/АБТ

Группа Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.

Окончил кафедру ИУ7 МГТУ имени Баумана.
Был разработчиком ПО в Институте общей и неорганической химии имени Курнакова, РНЦ «Курчатовский институт», в Российско-корейском центре исследования энергии.

Автор системы по учету и контролю сварных соединений нефте- и газопроводов.
Руководил компанией по разработке высоконагруженных проектов Netstream, плодами которой были проекты, связанные с online-вещанием и видео (smotri.com, ivi). В 2012 году Netstream вместе со всей командой был дружественно поглощен одним из своих заказчиков — Ivi. C 2012 года по сей день Евгений работает CTO Ivi.

С 2006 г. преподает в МГТУ имени Баумана авторский курс «Технологии командной разработки ПО».

Является автором магистерской программы МАИ по подготовке менеджеров в IT.

Иви

Иви — один из лидеров онлайн-кинотеатров в России.

.

Ozon

Ozon — ведущий e-com России. В их IT-команде уже 5 000 специалистов, которые создают продукты для миллионов людей по всей стране и за рубежом. Ozon Tech разрабатывает собственные решения, контрибьютит в Open Source и использует современный стек: Go, C#, Kotlin, Swift TypeScript, Vue.js, Kubernetes и Kafka. Продолжают расти, чтобы повышать доступность сервисов и быть ещё ближе к пользователям.

Автор LLM-бенчмарка llmarena.ru. Преподаватель краудсорсинга в ШАДе, ВШЭ, МФТИ. Ex-Founder & ex-CTO TrainingData.ru.

LLM Arena

LLM Arena — открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке. llmarena.ru
Дмитрий Пименов

Яндекс Крауд

Руководитель службы разметки данных в Yandex Crowd. Прошёл долгий путь от Crowd Solutions Architect до руководства службы, которая помогает всему Яндексу обучать ML и нейросети.

Яндекс Крауд

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Нейронные сети и искусственный интеллект (data science)