Компания Tsinghua выпустила новую мультимодальную программу VisualGLM-6b, которая, как сообщается на ее официальном сайте, представляет собой визуальную модель, построенную путем объединения языковой модели chatglm-6b и BLIP2-Qformer .
Адрес проекта с открытым исходным кодом: https://github.com/THUDM/VisualGLM-6B
Адрес демонстрационной версии VisualGLM: https://huggingface.co/spaces/THUDM/visualglm-6b
Введение VisualGLM-6B:
Структура модели и идеи дизайна (из общего PPT доктора Дин Мина в конце статьи)
Я случайно протестировал изображение, и эффект все еще очень хорош.
Только что попробовала, вроде нормально
Текущее решение с открытым исходным кодом имеет некоторые ограничения из-за таких ограничений, как количество данных, количество параметров модели и согласование намерений пользователя.
- Изображение, изображающее проблемы иллюзии реальности/модели. При создании длинного описания изображения, когда изображение находится далеко, будет доминировать языковая модель, и можно сгенерировать контент, которого нет на изображении, исходя из контекста.
- Проблема несоответствия атрибутов. В сценах с несколькими объектами определенные атрибуты одних объектов часто ошибочно размещаются на других объектах.
- Проблема разрешения. В этом проекте используется разрешение 224*224, которое также является наиболее часто используемым размером в визуальных моделях, однако для более детального понимания необходимы более крупные разрешения и расчеты.
В настоящее время VisulaGLM не открывает соответствующие технические документы, но вы можете обратиться к мультимодальному техническому решению Microsoft [2] , которое также поддерживает ввод двух модальных данных, текста и изображения, и выводит текстовое содержание ответа.
Мультимодальный подход к Microsoft Research
обновить:
В 5.30 д-р Дин Мин, разработчик VisualGLM, поделился идеями дизайна и методами обучения VisualGLM в прямом эфире и нашел время, чтобы посмотреть повтор, полный деталей. Есть видео и PPT, вы можете посмотреть их сами.
Техническое объяснение VisualGLM: https://www.bilibili.com/video/BV14L411q7fk
Загрузка данных отчета: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd=8wpc