Retrieval-Augmented Multimodal Language Modeling

物联网 2023-08-22 17:09:18 阅读次数: 0

本文是LLM系列文章，针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。

检索增强的多模态语言建模

摘要
1 引言
2 相关工作
3 方法
4 实验
5 定性结果
6 结论

摘要

最近的多模态模型，如DALL-E和CM3，在文本到图像和图像到文本生成方面取得了显著进展。然而，这些模型将其所有知识（例如，埃菲尔铁塔的外观）存储在模型参数中，需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识，我们提出了一种检索增强的多模态模型，该模型使基础多模态模型（生成器）能够引用检索器从外部存储器（例如，网络上的文档）中提取的相关文本和图像。具体来说，对于检索器，我们使用预训练的CLIP，对于生成器，我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3（RA-CM3），是第一个可以检索和生成文本和图像的多模态模型。我们发现，RA-CM3在图像和字幕生成任务上显著优于基线多模态模型，如DALL-E和CM3（MS-COCO的12个FID和17个CIDEr改进），同时训练所需的计算量要少得多（<DALLE的30%）。此外，我们发现RA-CM3表现出了新的能力，如忠实的图像生成和多模态上下文学习（例如，从演示中生成图像）

1 引言

2 相关工作

3 方法

4 实验

5 定性结果

6 结论

我们提出了一种检索增强的多模态模型，该模型可以检索和引用用于生成图像和文本的外部存储器。具体来说，我们使用预训练的CLIP实现了一个多模态检索器，并使用CM3架构设计了一个检索增强生成器。我们得到的模型名为RA-CM3，在图像和字幕生成任务上都优于现有的多模态模型，同时需要更少的训练计算。此外，RA-CM3表现出新的能力，如知识密集型图像生成和多模态上下文学习。
这项工作旨在为多模态模型提供一个通用的模块化检索增强框架。我们相信这开辟了各种令人兴奋的研究途径，例如改进多模态检索器和生成器，将模态扩展到图像和文本之外，以及进一步研究多模态提示和上下文学习。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/132407987

Retrieval-Augmented Multimodal Language Modeling

REALM: Retrieval-Augmented Language Model Pre-Training

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

Language Modeling

RNN and Language modeling in TensorFlow

Grounding Language Models to Images for Multimodal Generation

A Survey on Multimodal Large Language Models for Autonomous Driving

User Diverse Preference Modeling by Multimodal Attentive Metric Learning

学习笔记之UML ( Unified Modeling Language )

AudioLM: a Language Modeling Approach to Audio Generation

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

UML(uml:unified modeling language.）学习笔记

A Language Modeling Approach to Predicting Reading Difficulty-paer

UML类图（Unified Modeling Language Class Diagrams)

DSM：使用MetaEdit+编写Family Tree Modeling Language

UML——Unified modeling language UML (统一建模语言)

UML（Unified Modeling Language 统一建模语言）

统一建模语言UML（Unified Modeling Language）

ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition

详细介绍Deeper Text Understanding for IR with Contextual Neural Language Modeling

【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

论文分享 | WSBERT：Weighted Sampling for Masked Language Modeling

Transformers预训练模型使用：语言建模 Language Modeling

论文阅读-A General Language for Modeling Social Media Account Behavior

NLP领域中两种语言模型AR(AutoRegressive Language Modeling)和AE(AutoEncoding Language Modeling)

LLM应用架构之检索增强（RAG，retrieval-augmented generation）的缘起与架构介绍

LangChain 24 对本地文档的搜索RAG检索增强生成Retrieval-augmented generation

Modeling

【具身智能模型1】PaLM-E: An Embodied Multimodal Language Model

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)