Диалоговый агент на базе ChatGPT — это сейчас одно из наиболее эффективных средств автоматизации общения в практически любых бизнес-процессах, где это общение возникает, будь то деловая переписка, модерация контента в интернет-магазине или анализ диалогов в контакт-центре. А если общение — это не только текст, а ещё и, например, картинки (в духе «глянь, подходящий ли стиль у этой картинки для новогодней рекламы» или «эй, посмотри, на этой фотке точно нет запрещёнки»), то здесь поможет ChatGPT Vision.
Но в текущих реалиях далеко не всегда есть доступ к серверам OpenAI, на которых работает ChatGPT Vision. Также не всегда оправдана отправка данных на сторонние сервера по соображениям безопасности или экономики. Таких вот «не всегда» очень много. И что же делать в этом случае? Делать свою мультимодальную LLM!
В своём докладе я расскажу, как можно собрать такую мультимодальную LLM из опенсорсных компонентов на вашем железе, как правильно подготовить датасет для кастомизации этой мультимодальной LLM под вашу бизнес-специфику и, наконец, как оценить качество того, что получилось.