UnIVAL:第一个支持图像、视频、音频和文本任务的大一统模型!

UnIVAL,这是第一个能够支持图像、视频和音频文本任务的统一模型!

d4943f845327058559132726c5ad9b6e.png

进NLP群—>加入NLP交流群

大型语言模型 (LLM) 使得对通才代理的雄心勃勃的追求不再是一个幻想。

构建此类通用模型的一个关键障碍是任务和模式的多样性和异质性。

一种有希望的解决方案是统一,允许在一个统一的框架内支持无数的任务和模式。

虽然在海量数据集上训练的大型模型(例如 Flamingo(Alayrac 等人,2022))可以支持两种以上的模态,但当前的中小型统一模型仍然仅限于 2 种模态,通常是图像文本或视频-文本。

我们提出的问题是:是否有可能有效地构建一个可以支持所有模态的统一模型?

dbb0f44e1bf1448fd92284c8d1ce2d6b.png

为了回答这个问题,我们提出了 UnIVAL,朝着这个雄心勃勃的目标又迈进了一步。

不依赖于花哨的数据集大小或模型数十亿个参数,~ 0.25B 参数 UnIVAL 模型超越了两种模态,将文本、图像、视频和音频统一到一个模型中。

e7eb1ae61c5d6ace09f6487b46354f54.png

我们的模型基于任务平衡和多模态课程学习,在许多任务上进行了有效的预训练。

c68a815c841b62d9314ab7cac1437b13.png ec9850cb2ee66b0b16baaa5d4da6c736.png
Multimodal Curriculum learning (MCL).
c1d11355089003091243a2bc20927399.png
Multimodal task balancing
af5db9370e9a0e8380c5a3b043d69bed.png
跨任务和数据的知识迁移

UnIVAL 显示跨图像和视频文本任务的现有最先进方法的竞争性能。

d6cad700f3d604e75fca0c9b8e4dc14d.png
视觉定位任务在 RefCOCO, RefCOCO+, and RefCOCOg 数据上的微调
e9512f4da20559434446c9253f1542ae.png
图片-文本理解和生成任务数据微调

从图像和视频文本模式中学习的特征表示,允许模型在音频文本任务上进行微调时实现竞争性能,尽管没有正在对音频进行预训练。

b651451ad0885287e257f383f6c26d7a.png
视频问答微调
7ffe246e51c8f951b0bd707c3dfbcc00.png
Video Captioning微调
4705dcaf637869ba5e044b690aecb5df.png
语音-文本微调
a53dc58ef96c3832000f5fcf525500e4.png
Evaluation without finetuning
162071be845eacd42695c037a8ae08c1.png
Zero-Shot Evaluation

得益于统一模型,我们提出了一项通过对不同多模态任务训练的模型进行权重插值来进行多模态模型合并的新颖研究,显示了它们特别是对于分布外泛化的好处。

5168204bb184091341f9d35bb4a2bc02.png 67b87b4c615977dcaf1d972064405b3f.png

最后,我们通过展示任务之间的协同作用来激励统一。

总结

在本研究中,我们引入了 UnIVAL,这是第一个能够支持图像、视频和音频文本任务的统一模型。

我们通过一个相对较小的模型来实现这一点,该模型在相对较小的数据集上具有~ 0.25B 参数。

我们的统一系统经过多任务预训练,具有多种优势。它利用不同任务和模式之间的协同作用,实现更高效的数据训练,并对新颖的模式和任务表现出强大的泛化能力。

我们策略的统一方面为合并在不同多模态任务上微调的模型的有趣技术铺平了道路:我们证明,除了多任务预训练之外,通过权重插值合并可以进一步利用任务多样性。

最终,我们希望我们的工作能够激励研究界,并加速构建与模态无关的通才助理代理的进展。


4b29f5542c7919a9c16c3ef67da8b414.png

进NLP群—>加入NLP交流群

猜你喜欢

转载自blog.csdn.net/qq_27590277/article/details/132095170