Миллионы часов: поиск копий в VK Видео

Архитектура

2 декабря, 17:00, Зал «01. Конгресс-холл»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе рассказывается о решении задачи поиска дубликатов видео при загрузке на ВК. Рассказ охватывает несколько стадий этой задачи: декодирование видео, оптимальный сбор фингерпринтов, поиск аналогов. В чем отличие от распознавания лиц, какие сложности при работе с видео — всё в этом докладе.

Целевая аудитория

Доклад будет интересен людям, решающим проблему нечеткого поиска по видеоконтенту. А также всем, кому интересно, как VK Видео устроен под капотом.

Тезисы

Скачать презентацию Все презентации конференции

Каждый год на платформе VK Видео появляются сотни миллионов единиц уникального контента: видео от известных блогеров, музыкальные клипы, фильмы и сериалы. Мы хотим защищать такой контент и его авторов от копирования. В докладе расскажем, как мы это сделали в условиях такой нагрузки и крайне высокой цены ошибки.

Мы вместе пройдем путь эволюции системы, позволяющей находить копии видеоконтента: от прототипа до production-ready-решения, использующего Java/C++, низкоуровневую работу с ffmpeg, нейросети (libtorch), FAISS с IVF-индексами на GPU. Рассмотрим ключевые проблемы, с которыми мы столкнулись: многопоточное декодирование видео и снятие отпечатков, размеры и масштабирование индексов, квантизация, повышение точности работы алгоритма матчинга.

Никита Кочетков

VK, ВКонтакте

Старший разработчик в команде VK Видео. Активно участвовал в создании рекомендательной системы VK Клипов и Видео. Ранее работал в JetBrains над созданием платформы по статическому анализу — Qodana.

VK, ВКонтакте

VK — это более 200 технологичных и высоконагруженных проектов, свыше 15 000 сотрудников. ВКонтакте, ОК, VK Cloud, Дзен, Маруся, VK Play — это лишь часть продуктов VK, которыми ежедневно пользуются миллионы людей. ВКонтакте — крупнейшая социальная сеть в России. Команда ВКонтакте разрабатывает технологические решения, которые отвечают критериям быстродействия, отказоустойчивости и качества, чтобы пользователи получали максимум для общения, работы, учебы, развлечения и творчества.