[mPLUG]: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections多模态特征融合方法泛读

论文:https://arxiv.org/pdf/2205.12005.pdf

代码:AliceMind/mPLUG at main · alibaba/AliceMind · GitHub

Motivation:

学习VLP模型的一个巨大挑战是在这两种模态之间找到良好的对齐方式,以缩小两者之间的语义差距。最近的工作以端到端的方式实现了图像和文本表示之间的直接对齐,但是在建模长视觉序列时存在两个问题:

    1. 效率:长视觉序列上的自注意力比文本序列上的计算量多很多;

    2. 信息不对称:图像文本预训练数据中的标题文本通常较短且高度抽象,而可以从图像中提取更详细和多样的信息。

本文通过引入一个新的带skip-connection结构的非对称vision-language模块解决这个问题。

多模态融合方法

    图1a:简单的将视觉和语言特征串联作为输入,实现视觉和语言的早期融合,通过自注意力从底层对齐模态。这种方法对来自两种模态的信息进行同等处理,这可能会导致信息不对称,尤其是当模态之间的信息密度或序列长度存在较大差异时。

    图1b:在两种模态上独立进行多模式融合,有助于缓解信息不对称问题。然而,对于长视频序列仍然存在计算效率低下的问题,并且对于两个独立的transformer结构,参数效率并不是很高。

    图1c:本文提出了mPLUG,通过跨模态跳跃连接来实现高效的视觉语言学习,以解决基本的信息不对称问题。模型首先在前几层采用非对称的co-attention架构,通过移除视觉侧的co-attention来提高效率,再将原始的视觉表示和语言侧的co-attention的输出串联输入到一层self-attention。

模型结构

 模型框架:

  • 使用两个单模态编码器visual encoder和text encoder分别对图像和文本进行编码。visual encoder将输入图像划分为多个patch,并添加[CLS] token进行编码;text encoder对文本同样添加[CLS] token进行编码。
  • 利用拼接跨模态融合的有效性和非对称co-attention的效率,以递归方式增强跨模态融合

  • 视觉和语言的表征输入到由多个跳跃连接融合块组成的跨模态跳跃连接网络中。在每个skip-connected融合块中,我们对S个不对称的co-attention层中的输出再进行拼接方式的跨模态融合。

模型预训练任务:

  • Image-Text Contrastive (ITC):对其单模态的图像和文本encoder特征,同样学习MoCo引入queue扩大负例样本。
  • Prefix Language Modeling (PrefixLM):自回归生成任务。

  • Masked Language Modeling (MLM):与Bert预训练任务一致。

  • Image-Text Matching (ITM):图像文本匹配二分类任务,同样参考ITC的分数取hard负例。

模型效果

 对比不同多模态融合方法的耗时和性能,其中Asymmetric co-attention融合是BLIP模型中的结构,Encoder端的text特征与vit输出的image特征进行Cross-attention特征融合。

猜你喜欢

转载自blog.csdn.net/yangyanbao8389/article/details/127918851
今日推荐