Как научить фундаментальные модели читать, видеть, слышать и анализировать всё одновременно

Нейронные сети, искусственный интеллект

Архитектуры / другое
Machine Learning

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Моделью, которая умеет общаться текстом, сейчас уже никого не удивишь. Андрей расскажет, из чего собрать модель, которая в дополнение к этому умеет смотреть картинки и слушать речь. Очередной шаг на пути к General AI!

Целевая аудитория

Специалисты по машинному обучению с экспертизой в CV/NLP, ML-инженеры middle и выше, исследователи, аспиранты.

Тезисы

В докладе я расскажу о подходах к построению фундаментальных мультимодальных моделей на основе языковых моделей. Остановлюсь на ключевых аспектах построения такого рода архитектур, расскажу про эмерджентность и саморефлексию моделей. В деталях расскажу, как научить языковые модели понимать аудио, картинки, видео и другие типы данных, отличающиеся от текста. В части результатов покажу результаты работы нашей модели OmniFusion, поделюсь доступом к тестовому боту для общения с мультимодальным ассистентом и расскажу, как мы собирали данные и учили такую модель.

Занимается исследованиями в области цифровой обработки изображений с 2010 года, защитил диссертацию в 2013 году (к.т.н.) по теме обнаружения искусственных искажений на данных дистанционного зондирования Земли. Имеет более 70 публикаций в Scopus и Web of Science, индекс Хирша — 12. Руководил исследовательскими коллективами в рамках ряда крупных грантов РФФИ по теме пассивной защиты мультимедийных данных, был лауреатом премии Президента РФ для молодых учёных в 2015-2017 и 2018-2020 гг.
В настоящее время руководит лабораторией мультимодальных исследований FusionBrain в AIRI, преподаёт в Самарском университете, выступает с лекциями и пишет о событиях в AI и ML в своём телеграм-канале @complete_ai.

AIRI

AIRI — Artificial Intelligence Research Institute.

Видео