清华glm团队新作:多模态的VisualGLM-6b

清华又放出新的多模态方案VisualGLM-6b. 据其官网介绍该方案是联合了语言模型chatglm-6b和BLIP2-Qformer构建的视觉模型。

开源项目地址:https://github.com/THUDM/VisualGLM-6B

VisualGLM 体验demo地址: https://huggingface.co/spaces/THUDM/visualglm-6b

VisualGLM-6B的介绍:

扫描二维码关注公众号,回复: 15765430 查看本文章

模型结构和设计思路(来源文末的丁铭博士的分享PPT)

随手测试了一张图,效果还是很不错的。

随手体验了下,感觉还不错


当前该开源方案由于数据量、模型参数量、是否用户意图对齐等限制,方案存在的一些局限性。

  • 图像描述事实性/模型幻觉问题。在生成图像长描述的时候,距离图像较远时,语言模型的将占主导,有一定可能根据上下文生成并不存在于图像的内容。
  • 属性错配问题。在多物体的场景中,部分物体的某些属性,经常被错误安插到其他物体上。
  • 分辨率问题。本项目使用了224*224的分辨率,也是视觉模型中最为常用的尺寸;然而为了进行更细粒度的理解,更大的分辨率和计算量是必要的。

目前VisulaGLM未开放对应的技术论文,但可参考microsoft的多模态技术方案[2],该方案也是支持text和image两个模态数据的输入,输出回答文本内容。

微软研究院的多模态方案

更新:

5.30日丁铭博士,VisualGLM开发者直播分享关于VisualGLM的设计思路和训练方法,抽时间看完了回放,细节干货满满。有视频和PPT,可自行观看。

VisualGLM技术讲解:https://www.bilibili.com/video/BV14L411q7fk

报告资料下载:https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd=8wpc

参考

  1. ^GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型
  2. ^https://arxiv.org/abs/2302.14045

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/131735754
GLM
今日推荐