#论文题目：【LLM】X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages（X-LLM：通过将多模态视为外语来引导高级大型语言模型）
#论文地址：https://arxiv.org/pdf/2305.04160.pdf
#论文源码开源地址： https://x-llm.github.io
#论文所属会议：------
#论文所属单位：中科院

一、背景

以ChatGPT/GPT-4为代表的大规模语言模型（LLM）最近很火，但是我们不知道GPT-4的模型架构以及训练策略，本篇文章结合多模态信息（X在本模型中表示图像、视频、语音）构建X-LLM模型，它使用X2L接口将多种模式（图像、语音、视频）转换为外语，并将其输入到大型语言模型（ChatGLM）中。
在这里插入图片描述

二、模型方法

2.1 模型概述

X-LLM模型分为三部分：

转换多模式信息：第一阶段训练每个X2L接口分别与各自的单模式编码器对齐，以将多模态信息转换为语言。
将X2L表示与LLM对齐：通过X2L接口将单模编码器与LLM对准。
集成多模态：所有单模态编码器通过X2L接口与LLM对齐，将多模态功能集成到LLM中。

注意：在前两个阶段，我们使用图像字幕数据、视频字幕数据和自动语音识别（ASR）数据来训练X2L接口。本篇文章还构建了一个数据集（为了更好地为LLM配备多模式能力）——在开源数据集的基础上构建了一个多模式指令数据集（～10K），以进一步改进所提出的模型。

2.2 模型细节

在这里插入图片描述

既然是问答系统，那么以一副图片为例，使用者会问：“请介绍一下这个图片的建筑物”。此时本文用ChatGML（针对中英双语训练并对中文进行优化）作为语言解码器，它是建立在GML和GML-130b基础上的一个开源项目，通过ChatGML将使用者的问题解码成机器可识别的语言，以便执行复杂的语言任务。
在编码Image Encoder、Video Encoder、 Speech Encoder阶段中，视觉感知采用ViT-g作为图像编码器和视觉编码器；语音感知使用由卷积层和一致性结构组成的语音编码器。
编码结束后，设计了X2L接口将得到的多模态信息与LLM对齐，在此接口中，视频和图像接口具有相同的结构和参数设置，采用Q-Former和适配器模块X-Adapter共同完成。Q-Formers旨在将图像转换为语言，其中从图像编码器获得的图像特征被转换为具有 $L$ _i准语言嵌入的序列。
但是在视频处理中，要使用均匀采样，并用 $T$ 帧表示每个视频。然后，将每一帧视为一幅图像。视频接口将每个帧特征转换为具有 $L$ _i准语言嵌入的序列。然后视频接口将所有序列连接起来，以获得长度为 $T$ × $L$ _i的最终准语言嵌入后进行图像步骤的操作。
语音接口包括C-Former和适配器模块，C-Former可以将来自语音编码器的帧级语音特征序列压缩为具有连续积分和发射机制（CIF）的令牌级语音嵌入序列[CIF0，CIF1，CIF2]。由于令牌级语音嵌入序列与对应于语音话语的转录的令牌序列严格对齐，因此当将语音合并到LLM中时，使用令牌级语音嵌入式来表示语音可以有效地减少GPU存储器的使用。
C-Former是CIF模块和12层变压器模块的组合（就是18年提出来的BERT模型）。（CIF模块通过可变长度下采样将来自语音编码器的语音特征序列压缩为具有与对应转录相同长度的令牌级语音嵌入序列。假设语音编码器为输入语音发出的特征序列的长度是U，并且语音话语的转录的令牌序列的长度为S，则令牌级语音嵌入序列的长度应该是S（U通常比S长几倍）。随后的转换器结构为令牌级语音嵌入提供了更强的上下文建模）。
三个Adaptor将变换器结构的输出投影到LLM的输入向量空间。

三、对比试验

文章用两个模型进行对比试验：LLaV A 2 和 MiniGPT-4，具体评测方法详见原文。

#Reading Paper# 【LLM】X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalitie

一、背景

二、模型方法

2.1 模型概述

2.2 模型细节

三、对比试验

猜你喜欢