Shikra：理解指向，说出坐标，多模态语言模型超进化 - 代码天地

Shikra：理解指向，说出坐标，多模态语言模型超进化

业界资讯 2023-07-16 08:22:59 阅读次数: 0

论文：http://arxiv.org/abs/2306.15195

代码：https://github.com/shikras/shikra

背景

在人类的日常交流中，经常会关注场景中的不同区域或物体，人们可以通过说话并指向这些区域来进行高效的信息交换。我们将这种交互模式称为参考对话（Referential Dialogue）。

如果 MLLM 擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中，用户可以使用视线注视指示任何内容与AI对话。同时AI也可以通过高亮等形式来指向某些区域，实现与用户的高效交流。

本工作提出了Shikra模型，赋予了MLLM这样的参考对话能力，既可以理解位置输入，也可以产生位置输出。

核心亮点

1. Shikra能够理解用户输入的point/bounding box，并支持point/bounding box的输出，可以和人类无缝地进行参考对话。

2. Shikra设计简单直接，采用非拼接式设计，不需要额外的位置编码器、前/后目标检测器或外部插件模块，甚至不需要额外的词汇表。

如上图所示，Shikra能够精确理解用户输入的定位区域，并能在输出中引用与输入时不同的区域进行交流。像人类一样通过对话和定位进行高效交流。

如上图所示，Shikra不仅具备LLM所有的基本常识，还能够基于位置信息做出推理。

如上图所示，Shikra可以产生详细的描述，解释图片中正在发生的事情，并为参考的物体生成准确的定位。

尽管没有在OCR数据集上专门训练，Shikra也具有基本的OCR能力。

更多的例子

其他传统任务

方法

模型架构采用CLIP ViT-L/14 作为视觉主干，Vicuna-7/13B作为基语言模型，使用一层线性映射连接CLIP和Vicuna的特征空间。

Shikra直接使用自然语言中的数字来表示物体位置，使用[xmin, ymin, xmax, ymax] 表示边界框，使用[xcenter, ycenter]表示区域中心点，区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

实验结果

Shikra在传统REC、VQA、Caption任务上都能取得优良表现。同时在PointQA-Twice、Point-V7W等需要理解位置输入的VQA任务上取得了SOTA结果。

我们使用POPE benchmark评估了Shikra产生幻觉的程度，Shikra得到和InstrcutBLIP相当的结果，并远超近期其他MLLM。

思想链（CoT），旨在通过在最终答案前添加推理过程以帮助LLM回答复杂的QA问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用CoT则尚待研究。尤其因为目前的MLLM还存在严重的幻视问题，CoT经常会产生幻觉，影响最终答案的正确性。通过在合成数据集CLEVR上的实验，我们发现，使用带有位置信息的CoT时，可以有效减少模型幻觉提高模型性能。

结论

本工作介绍了一种名为Shikra的简单且统一的模型，以自然语言的方式理解与输出空间坐标，为MLLM增加了类似于人类的参考对话能力，无需引入额外的词汇表、位置编码器或外部插件。

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/131466918

Shikra：理解指向，说出坐标，多模态语言模型超进化

多模态大模型(大模型基础、微调、视频理解多模态预训练)

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

多模态文档理解：基础概念-数据-模型

多模态模型GILL：生成+理解，CMU华人博士新作

【多模态】CLIP模型

经典多模态模型

利用大语言模型做多模态任务

基于自然语言处理的多模态模型_综述

ChatGPT3 Transformer 的多模态全能语言模型

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

VisualGLM - 多模态中英双语对话语言模型

多模态对话语言模型-VisualGLM-6B

苹果发布开源多模态大语言模型 Ferret

GPT-4发布：多模态大模型，AI能力再度进化，可识别图像内容

大模型周报丨语言模型与压缩、多模态文学模型、Baichuan 2

中科院发布多模态 ChatGPT，图片、语言、视频都可以 Chat ？中文多模态大模型力作

多模态大语言模型综述来啦！一文带你理清多模态关键技术

多模态模型技术综述

医疗多模态大模型

多模态大模型篇

多模态超省钱！JinaChat 面向开发者的大模型服务

大语言模型的进化树，这是一份超详细ChatGPT「食用」指南

AIGC+RPA丨大语言模型赋能实在智能数字员工“超进化”

多模态模型学习1——CLIP对比学习语言-图像预训练模型

语言大模型的进化轨迹

【AIGC】11、MDETR | LeCun 团队于 2021 年推出的端到端多模态理解模型

微软多模态大模型 Kosmos-2｜局部理解能力，解锁实体级交互

【计算机视觉】BLIP：统一理解和生成的自举多模态模型

从视觉感知到视觉理解，融合LLM的多模态大模型研究 |TeaTalk·Online演讲实录

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)