Новая работа команды Tsinghua glm: Multimodal VisualGLM-6b

Компания Tsinghua выпустила новую мультимодальную программу VisualGLM-6b, которая, как сообщается на ее официальном сайте, представляет собой визуальную модель, построенную путем объединения языковой модели chatglm-6b и BLIP2-Qformer .

Адрес проекта с открытым исходным кодом: https://github.com/THUDM/VisualGLM-6B

Адрес демонстрационной версии VisualGLM:  https://huggingface.co/spaces/THUDM/visualglm-6b

Введение VisualGLM-6B:

Структура модели и идеи дизайна (из общего PPT доктора Дин Мина в конце статьи)

Я случайно протестировал изображение, и эффект все еще очень хорош.

Только что попробовала, вроде нормально


Текущее решение с открытым исходным кодом имеет некоторые ограничения из-за таких ограничений, как количество данных, количество параметров модели и согласование намерений пользователя.

  • Изображение, изображающее проблемы иллюзии реальности/модели. При создании длинного описания изображения, когда изображение находится далеко, будет доминировать языковая модель, и можно сгенерировать контент, которого нет на изображении, исходя из контекста.
  • Проблема несоответствия атрибутов. В сценах с несколькими объектами определенные атрибуты одних объектов часто ошибочно размещаются на других объектах.
  • Проблема разрешения. В этом проекте используется разрешение 224*224, которое также является наиболее часто используемым размером в визуальных моделях, однако для более детального понимания необходимы более крупные разрешения и расчеты.

В настоящее время VisulaGLM не открывает соответствующие технические документы, но вы можете обратиться к мультимодальному техническому решению Microsoft [2] , которое также поддерживает ввод двух модальных данных, текста и изображения, и выводит текстовое содержание ответа.

Мультимодальный подход к Microsoft Research

обновить:

В 5.30 д-р Дин Мин, разработчик VisualGLM, поделился идеями дизайна и методами обучения VisualGLM в прямом эфире и нашел время, чтобы посмотреть повтор, полный деталей. Есть видео и PPT, вы можете посмотреть их сами.

Техническое объяснение VisualGLM: https://www.bilibili.com/video/BV14L411q7fk

Загрузка данных отчета: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd=8wpc

ссылка

  1. ^ GitHub — THUDM/ChatGLM-6B: ChatGLM-6B: модель открытого двуязычного диалогового языка | Модель двуязычного диалогового языка с открытым исходным кодом
  2. ^ https://arxiv.org/abs/2302.14045

Supongo que te gusta

Origin blog.csdn.net/sinat_37574187/article/details/131735754
Recomendado
Clasificación