多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~

37e900fbe5f04eb4d1dc1f488b414938.png论文: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
代码: https://github.com/open-mmlab/Multimodal-GPT (包含代码、数据、demo)
作者:OpenMMLab

深度学习自然语言处理 原创
作者: 林哲乐

使用视觉和语言指令训练一个多模态聊天机器人

基于开源多模态模型 OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能!

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT(视觉、语言),与人类进行多轮对话,同时设计了统一化多模态的指令数据模板

能够遵循的指令类型:生成详细的标题、计算特定的对象、处理一般的询问

基准模型:OpenFlamingo(用LoRA方式训练)

联合训练的数据:1.纯文本数据  2.图像-文本数据

其他的一些多模态GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM:Vicuna[4]、LLaMA[5]

提到的其他数据集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

  • 人类交流/理解世界的方式:视觉、语言等

  • AI智能助手的作用:根据多种模态的指令,理解人类意图,完成各种任务

  • 之前的方法:将视觉表示与LLM的输入空间对齐,随后利用LLM中的原始自我注意来处理视觉信息

  • 本文的方法:微调Flamingo(开源)

    • 视觉编码器

    • 门限交叉注意力机制

    • 预训练使用“图文对”数据

    • 统一多模态的指令模板

    • 语言数据、语言-视觉数据,进行联合训练

  • 本文目标:在多模态对话任务上,接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板,把以下两种数据整合起来,提高模型理解能力

2.1 仅语言的指令模板

9f9a0b403a511a7cb3cb24f7a56f5c9f.png
仅包含语言的指令提示模板

{ instruction}, { input}为输入文本,{ response} ,<EOS> 用于计算损失

使用数据

  • Dolly 15k数据集

  • Alpaca GPT4数据集

2.2 视觉-语言的指令模板

7b044cda79fac7a501048a6994fbb04e.png
包含视觉-语言的指令提示模板

其中,{ question} 是原始文本,<image_token>是表示图像存在的token,{ response}、<EOS> 用于计算损失

使用数据集

  • LLaVA

  • Mini-GPT4

  • A-OKVQA

  • COCO caption (不直接作为训练集,而是用GPT-4转化,再加入训练集)

  • OCR VQA

上述合成指令使得训练集较为丰富,则模型能够更健壮

图像描述的指令,举例如下:a92215a6591512173b85b99184e50f02.png

本文方法

c1b47041183d7d868320f31ca63386f7.png
模型结构图

基线模型:open-flamingo模型

组成

  • 视觉编码器:CLIP

  • 感知重采样

  • 语言解码器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微调)

训练数据:用2.1和2.2两种数据,进行联合训练

训练过程:通过预测文本的下一个标记进行训练,只有{responce}和标记参与损失计算

4.实验

实验设置

实验参数 取值
GPU A100 * 8
epoch 1
batch_size 1
LoRA参数更新 每16轮
learning rate 1e-5

Demos展示:

  • 给出一个烤千层面的食谱,并告诉用户在哪里吃到它cabbf668e03d4bfee672b1e0bf47e6a0.png

  • 能够识别埃隆·马斯克的形象,并回答关于埃隆·马斯克的问题e254694c6de303028c16110bc28cbc8d.png

  • 我知道照片上有4个女人,也知道她们在做什么1eb3e69029ec1a15b448d136fd83c17f.png

  • 认得出电影,也知道电影是由哪个电影公司制作的4123a41d9f1f1004b0b7bd1eb3b16a30.png

  • 能识别图像中的人物,并认识该书的作者31bf5ff62e591cd9159cb84654f5063e.png

  • 可以回答关于用户旅行的一般问题98784747c9453ce335a89e5f02ef5231.png

  • 可以为图像生成详细的描述,并有能力推理得到在图像中的季节28662b872acf87b606ddb754d8ca7fc2.png

在线网站

感兴趣可以去官方网站[6]去尝试下,真的很棒!点击阅读原文也可直达!

855cee5ae9592ff8267a0b33c63df057.png
缺点是好像只支持英文~

后台回复:入群,加入NLP交流大群~

参考资料

[1]

OpenAI. Gpt-4 technical report. 2023: https://cdn.openai.com/papers/gpt-4.pdf

[2]

Minigpt-4: Enhancing vision-language understanding with advanced large language models: https://arxiv.org/pdf/2304.10592.pdf

[3]

Visual Instruction Tuning: https://arxiv.org/pdf/2304.08485.pdf

[4]

Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality: https://lmsys.org/blog/2023-03-30-vicuna/

[5]

Llama: Openand efficient foundation language models: https://arxiv.org/pdf/2302.13971.pdf

[6]

官方网站: https://mmgpt.openmmlab.org.cn/

猜你喜欢

转载自blog.csdn.net/qq_27590277/article/details/130633610