跨模态检索综述A Survey of Full-Cycle Cross-Modal Retrieval: From a Representation Learning Perspective

A Survey of Full-Cycle Cross-Modal Retrieval: From a Representation Learning Perspective
全周期跨模态检索综述: 从表示学习的角度

跨模态检索概述

在这里插入图片描述
图1.跨模态检索中的问题和挑战

特征提取

特征提取是跨模态检索的核心模块,它将原始语料编码成嵌入式,如视觉嵌入和语言嵌入。通过应用深度学习模型,可以提取一系列特征。传统的 CNN 网络[11]侧重于像素级的网格特征,与之相比,最近出现了更多探索图像中区域特征的方法,例如[12]提出的 Faster-RCNN 算法。变压器 [13] 和 BERT [14] 架构是预训练和微调的广泛范例。例如,ViT [15] 可以直接处理补丁特征,而 BERT、UniLM [16]、RoBERTa [17]、T5 [18]、BART [19]、 transformer 和 ViT 则支持文本编码器。图像编码器有多种选择,包括 Faster-RCNN、ResNet [20]、Visual Dictionary [21]、Swin transformer [22]、EfficientNet [23] 和 Linear Projection。

加入预训练模型

研究人员在跨模态检索系统中加入了预训练模型,对跨模态表征之间的相互作用进行建模。研究表明,与文字之间的关系不同,图像中的视觉概念对于跨模态表征来说非常关键和复杂。通过将 BERT 模型扩展到图像和文本,ViLBERT[24] 针对基于区域的对象检测,使用 Faster-RCNN 对区域的独立序列进行编码。LXMERT [25] 与 ViLBERT 类似,将区域编码为一系列感兴趣区域(ROI)特征。除区域特征外,还对像素级网格特征进行编码,如 SOHO [26]、CLIP-ViL [27] 和 pixel-BERT [28]。它们放弃了耗时的 Faster-RCNN。相反,有研究支持 ResNet 提取网格特征。除了区域和网格特征外,斑块投影也在很多场景中用于呈现图像特征。ALBEF [29] 直接利用 ViT 编码器处理斑块特征,生成多个扁平化的二维斑块。OSCAR[30]和 ERNIE-ViL [31]开发了额外的信息,以促进语义对齐。OSCAR 从图像中添加区域标签作为锚点,然后隐式地与文本单词对齐。相反,ERNIE-ViL 模拟场景图,并关注具有属性和关系的对象。

特征对齐

人们已经对图像和句子检索这两种情况进行了广泛的研究,以对具有相同语义的图像和文本进行对齐[32,33,34,35,36,37]。在跨模态配准研究的初期,参考文献 [32] 开发了一种使用 CNN 和 Bi-RNN 来构建图片和区域描述的模型。对齐模型结合了图像区域的 CNN 和句子的双向 RNN。结构化目标利用多模态嵌入来对齐两种模态。Carvalho 等人[33]同时利用检索和类引导特征,制定了联合目标函数和共享潜空间中的分类损失。双重损失正是检索损失和类损失。双三重方案为跨模态研究带来了损失函数的新思路。一些研究人员提出了一种用于不同模态之间交互的动态路由器方案[34]。他们设计了一个包含四个单元的框架,用于动态对齐细粒度片段。ViLT [35] 利用线性投影进行匹配,并展示了基于对齐预训练模型的改进,最终嵌入了图像和标题。ROSITA[36]受 OSCAR 和 ERNIE-ViL 亮点的启发,通过整合跨模态和模态内知识增强了对齐效果。此外,另一项研究[37]提供了一种面向实例的视觉语言任务架构,利用点积来对齐文本和图像。

工作流程

跨模态检索框架主要包括细粒度组件:表示、转化、对齐、融合和共同学习。本节将介绍具体的设计,包括各个重要阶段。图 2 展示了该领域典型系统的综合架构。在全周期工作流程中,这些模块被转化为以下方法,包括预处理、编码器表示、跨模态注意力和解码器机制。这些阶段有助于高效提取和检索不同模态的信息。
在这里插入图片描述
图2:跨模态检索过程概述

预处理

对输入数据进行预处理,以减少噪音并为后续处理做好准备。这一阶段将图像/视频和文本短语输入转换为视觉和文本标记。此外,各种模式之间存在差异,因此预处理将加以区分。除标准tokenization外,还有以下几个模块。

编码器表示

第二阶段涉及使用特征提取方法独立表示每种模态。编码器阶段收集来自视觉和文本标记的输入,并生成中间状态对语义内容进行编码。嵌入后,建立编码器最常用的方法是利用 LSTM、卷积和其他技术对标记序列进行编码。在文本表示方面,词嵌入、位置嵌入和段嵌入都会被输入到 BERT 编码器中。此外,一系列特征(如图像表示法)也与文本表示法保持一致。在这种情况下,会从视觉领域提取patch、网格和区域特征。

视觉语言预训练模型将特征提取和特征融合与预训练任务相结合。这些部分可应对各种挑战,例如量化文本和图像并将其传输给模型进行学习、处理表征交互的挑战,以及构建预训练任务以帮助模型学习对齐信息。对大规模数据进行预训练可以学习不同模态之间的语义关联,从而解决难以获得价格昂贵的人工注释的问题。在融合编码器和双编码器方面有两种核心的预训练选择,以聚合配对数据中的信息。单编码器主要改进 BERT 输入,而双编码器主要执行协同/交叉 BERT。我们研究了从 2018 年到 2022 年的许多当前出版物,并根据它们对待预训练模型的方式将其分为单流模型和双流模型。表 1 显示了融合编码器和双编码器预训练模型的路线图。研究表明,单流设计直接对两种模态进行自我注意,忽略了模态内的交互。因此,一些研究人员主张采用双流架构来描述跨模态交互。
在这里插入图片描述
表1:带有融合编码器和双编码器的预训练模型的路线图表。

跨模态注意力

很多研究都致力于通过多模态交互建模来解决前面提到的表征问题。根据多模态表征,相关建模用于学习共同表征。跨模态交互会促进两种不同模态之间的其他交互,从而改善视觉语言任务。我们将注意力分为上-下注意力、下-上注意力、循环注意力、交叉注意力、共同注意力、蒸馏注意力、网状记忆注意力和X-线性注意力。不同注意机制的跨模态信息融合程度各不相同。自下而上的注意方法[51]已被广泛应用于通过精细分析甚至多层次推理来实现推理。自下而上的过程表明图片区域,每个区域都有自己的特征向量,而自上而下的机制则设置特征权重。根据[52]的研究,图像文本检索通过反复的对齐阶段,利用循环注意记忆,在视觉和文字之间进行迭代操作和对应。这项研究通过探索注意力机制,加深了对片段对应的理解。这种理解与错综复杂的语义兼容,建议逐步利用图像和文字之间的复杂关系。交叉注意在 [14] 中传达了编码器和解码器信息。Transformer跟踪[53](TransT)避免了陷入语义信息算法的局部最优。为了解决构建高精度跟踪系统的问题,TransT 引入了一种独特的基于注意力的特征融合网络。注意力机制可创建长距离特征连接,使跟踪器在提取大量语义信息的同时,还能将注意力集中在重要信息上。自我注意力和引导注意力的结合被称为协同注意力。蒸馏注意力框架 [54] 是一种双编码器模型,由于其深度交互模块,推理速度比标准融合编码器更快。在这项研究中,双编码器训练由注释中的融合编码器指导者信息指导,所提出的知识蒸馏包括预训练蒸馏和微调蒸馏两个阶段,最终表现优于其他方法。网格记忆的使用允许编码器在多层次上运行,同时学习低层次和高层次的关系。潘等人开发的 X 线性注意力[55]可实现高阶特征交互,而双线融合技术则通过使用空间和通道双线注意力分布来捕捉输入类型之间的二阶交互,从而改进了跨模态信息的内容解读。堆叠交叉注意被许多研究人员广泛用于最大限度地研究视觉语言特征。

细粒度深度学习方法

细粒度深度学习方法专注于高级特征提取、学习特征表示以及在各种模式之间建立高维相关性。在本节中,我们批判性地回顾和分析了跨模态检索过程中使用的全周期方法,强调了其有效性和进一步改进的潜力。

特征工程

我们根据粒度将特征提取分为全局特征和局部特征,如图3所示。随后的研究利用了全局特征,如VSE++[61]、ACMR[62]和DSPE[63]。相反,局部特征被用于DAN[64]、SCAN[56]、SCO[65]和PVSE[66]等工作中。
在这里插入图片描述
图3.V-L 特征提取的分类图

我们进一步将特征提取分为两种类型,视觉嵌入和文本嵌入,这是许多跨模态检索系统的关键组成部分。视觉嵌入在很大程度上影响着检索效率,目前的研究是广泛而深入的。在文本嵌入方法中,类BERT结构通常用于提取特征。与文本嵌入不同,视觉嵌入采用不同程度的提取,包括区域、网格和补丁级别。Faster RCNN是一种二阶目标检测器,广泛用于基于目标检测的区域特征提取。例如,ViLBERT和LXMBERT使用共同注意来组合多模态信息。VisualBERT、VL-Bert和UNITER使用合并注意力进行多模态信息融合,而OSCAR和VinVL需要额外的图像标签。尽管如此,这种方法还是有很大的缺点。训练可能会冻结对象检测。它限制了视觉概念识别并丢失了上下文信息。此外,它不能描述许多对象之间的连接。上述所有限制都是基于区域提取特性的。基于CNN的技术是提取视觉特征的另一种流行方法。使用像素Bert和CLIP-ViL中的典型CNN网络来获得网格特性,而使用变换器来获得文本。SOHO利用可学习的视觉词汇来离散网格特征,然后将其输入到多模态模块中。与不一致的优化器(即使用SGD的CNN和使用AdamW的transformer)相比,它的性能比基于OD的方法差。Patch投影使图像切片能够提取特征。一种常见的方法,如ALBEF,直接使用ViT。

跨模态交互

与特征表示相比,图像文本匹配策略通过研究语义关系来提高一致性。跨模态交互在建立不同模态表征之间的联系方面起着至关重要的作用。这种交互包括将每个像素、区域或斑块与特定标签进行匹配。跨模态交互有三种主要方法,即视觉语言对齐、视觉语言重建和基于语义关联的视觉语言嵌入。

视觉语言对齐。视觉语言对齐旨在利用双编码器模型中的大规模对比学习,最大限度地提高图像文本对的可比性。它采用重新共享策略来解决两个网络分支之间的跨模态异质性问题。此外,模态内相似性是通过两个连接的 CNN 模型,使用来自精确模态的样本来学习的。在传统研究中,跨模态检索的参与模式主要依赖于人工专家知识和经验输入。然而,研究[67]提出了一种用于跨模态检索建模的动态交互机制,即 DIME。DIME 根据样本的复杂程度采用了不同的交互方法。该模型包括一个局部修改单元、一个模态内推理单元、一个全局局部引导单元和一个修改单元。ViLT [35] 是一种新颖的方法,它通过图像和文本信息的斑块投影和斑块级匹配,纳入了视觉嵌入特征。通过避免耗时的对象识别和表达能力有限的卷积技术,它能有效提高跨模态检索的性能。同样,在[36]的研究中,ROSITA 采用了预训练任务,通过抑制模态内上下文的干扰和消除潜在的噪声干扰来增强细粒度语义配准。这些进步证明了这些技术在克服传统跨模态检索方法局限性方面的有效性。ROSITA 模型从 OSCAR 和 ERNIE-ViL 中汲取了灵感。此外,最近的一项研究提出了一种新的对齐模型[68],它将图像和标题嵌入同一子空间,增强了图像-标题检索。ALBEF 模型[29]采用了预融合配准方法,并利用基于变换器的 ViT 收集图像特征,而无需使用 CNN。ViT 模型采用 BERT 处理文本,使用前六层处理单模态文本,使用后六层处理多模态文本。该模型首先对文本进行自我关注,然后进行交叉关注和视觉特征融合。此外,一些研究对实例对齐进行了广泛探索。例如,X-DETR[37] 为实例级对齐引入了一个多功能架构,并发现对于视觉语言任务来说,昂贵的联合模态变换器可能是多余的,而弱注释数据可能是有益的。X-DETR 使用点积对齐图形和文本。UVLP [69] 证明,基于两个关键标准,图像文本对齐和整个图像文本对齐的组合可以在没有平行数据的情况下实现出色的无监督视觉语言预训练。作者提出了构建弱监督配对语料库和粒度对齐预训练任务。他们的无监督预训练策略旨在为未对齐的文本和图像建立稳健的联合表征,结果显示在无监督环境下的各种任务中都取得了令人钦佩的成绩。上述对齐方法在数据集大小、质量和模型粒度方面都有特定的标准,这些标准对取得最佳结果至关重要。这些技术强调了细粒度匹配在跨模态检索中的重要性。

视觉语言重构。与视觉语言对齐不同,重构更注重全局信息。DSPE [63] 通过学习图像文本嵌入来解决匹配问题。损失函数的优化旨在改善特征在高维空间中的分布,从而产生更有效的聚类效果。MASLN [70] 针对类无法遍历实例的问题提出了一种解决方案。提出的解决方案包括使用重建子网络,利用条件自动编码器重建每个模态数据集。子网络利用从输入到输出的信息,同时最大限度地减少分布差异。此外,MASLN 还引入了一个对抗子网络来开发语义表征。参考研究[71]调查了用于嵌入和相似性计算的神经网络。嵌入网络利用新的邻域限制和最大边际排序误差学习潜在的嵌入空间。与普通的三重采样相比,作者改进了邻域采样,以产生极小的批次。相似性网络使用元素乘积,并应用回归损失训练来直接预测相似性得分。大量试验表明,该网络可以准确定位短语。在最近的研究中,视觉和文本检索问题被重新表述为文本和视觉转换任务[72]。为了解决这一任务,作者提出了一种循环一致性网络。在另一项相关研究[73]中,注意力机制通过加入场景图结构得到了增强。具体来说,句子重构网络从检测网络提取的对象、属性和关系中创建一个场景图。随后,图卷积网络对生成的图进行处理,生成一个词向量,并将其输入编码器解码器模型共享的预训练字典中。这种方法使生成的语料库中的视觉描述更自然、更接近人类。
重构研究克服了嵌入空间的限制。重构方法采用了深度自动编码器,最大限度地减少了异质性,提高了语义辨别能力。此外,与跨模态配准相比,跨模态重构对数据集的要求更低,标注成本更低,适合中小型数据集。

视觉语言嵌入。联合嵌入可将全局和局部信息整合为语义特征嵌入,从而开发出卓越的特征辨别能力。DSCMR 的研究[74]提出了一种监督学习结构,以保留语义区分和模态不变性。它创建了两个具有权重共享限制的子网络。作者减少了标签和共同表征空间中的区分损失,提高了所学共同表征的重要性。DSCMR 的学习策略能将配对标签和分类信息完全统一起来,成功地学习了异构数据的典型表示。PCME [75] 将一张图片与众多标题匹配,或将一个标题与多张图片对应。作者认为,大多数现有模型的确定性函数不足以捕捉一对多的对应关系。联合表示空间 PCME 范式映射一对多的关系。它使用概率映射,不需要多对多匹配的精确表述。不确定估计使 PCME 能够评估检索难度和失败概率,即辅助可解释性方面。概率模型从一个更成熟的嵌入空间中学习,在这个空间中,集合关系也是有益的,而在精确空间中,只有相似性关系才是有益的。概率映射是精确检索系统的补充。ViSTA [76] 提出了一个转换器框架,用于通过直接编码补丁和场景嵌入来学习聚合视觉表示。它提出了一种新颖的聚合标记,用于嵌入图像对并将它们组合到共享空间中。双向对比学习损失解决了场景文本的模态损失问题。
这种联合嵌入策略侧重于高级语义。丰富的语义关联方法可以成功解决多义词实例。此外,视觉语言嵌入可以提高图像文本匹配的准确性和扩展性。此外,嵌入还具有很强的检索性能。

预训练任务

在跨模态检索中,输入是非结构化的,并被转换为向量格式。从以往的研究来看,数据驱动的预训练模型可以从中学习,并且受预训练任务结果的影响很大。我们对跨模态检索中的预训练任务进行了分类和总结,并将其分为基于文本的任务、基于视觉的任务和跨模态任务。表 2 列出了预训练任务的术语表。我们展示了如何利用预训练任务来训练模型,这对通用表征至关重要。预训练任务的主要目标包括序列完成、模式匹配和提供时间/上下文特征。
在这里插入图片描述
表2.预训练任务词汇表

统一的视觉语言架构

本节将介绍我们如何研究对学习视觉和语言信息至关重要的统一架构。我们将视觉语言(V-L)架构总结为两类:通用表示法和最新参考文献中的统一生成模型。通用表示法旨在学习单一的嵌入空间,从而可以表示多种模式。统一生成模型是一种跨模态检索形式,利用单一模型建立多种模态的内容表征。这两种方法各有利弊,选择哪种方法取决于具体要求。首先,我们将在本节概述这两种架构。随后,我们将对两者的优缺点进行全面评估,突出它们的优缺点。
通用表示法。通用表示法对于在跨模态检索中有效比较不同模态的相似性至关重要。为了实现这一目标,[74] 提出的 DSCMR 模型提供了一个通用表示空间,可以直接比较来自多种模态的样本。该框架采用了一种有监督的跨模态学习方法来建立不同模态之间的联系,在保留语义区别和模态不变性的同时成功地学习了共同句子。为了发现跨模态相关性,模型的最后一层包含两个具有权重共享限制的子网。模态不变性损失被纳入目标函数以消除差异,而线性分类器则在共同表征空间中对数据进行分类。这些特点共同使 DSCMR 模型成为一种很有前途的跨模态检索方法。SDML[77]中提出的方法事先定义了公共空间,同时最大限度地缩小了组间差距。SDML 是第一个支持无限多模态输入的模型。为训练不同模态的特定网络,输入会被投射到一个预定义的子空间中。这种方法可以训练更多模态,而无需同时学习所有模态。UNITER 的目标是解决确定是否为所有 V-L 任务学习通用视觉语言表征的问题。其大规模预训练过程使其能够处理各种下游 V-L 任务和多模态联合嵌入。
除了联合表征,通用编码器也得到了广泛的研究。例如,Unicoder-VL 开发了一种通用视觉和语言编码器。Unicoder-VL 采用了三种预训练任务,包括 MLM、MOC 和 VLM。这些任务相互协作,为输入标记创建上下文感知表征。它还尝试预测图片和文本是否相关,并在没有联合预训练的情况下执行其他算法进行图片文本检索。它说明,转移学习也能在跨模态任务中产生出色的结果。GPV [78] 提供了一个通用和任务无关的系统。它接收视觉特征和文本描述。此外,它还能生成边界框、可信度和输出信息。在不影响网络结构的情况下,该系统可以学习和执行大范围内的任何任务。GPV 由光学编码器、文本编码器和协同注意模块组成。CNN 主干网和 DETR 变压器编码器-解码器用于创建对象检测器。这也是指 ViLBERT,它可以对来自视觉和语言编码器的跨语境表示进行编码。由于在所有语言中收集和注释特定任务数据是不可行的,因此亟需一个框架来建立跨语言的通用模型。M3P [79] 提供了一种多语言和多模态预训练范式,将它们整合到一个有凝聚力的框架中,以获取通用表征。它利用了多语言文本视频数据监督不足的问题,受到了最近在大规模语言建模和多模态预训练方面取得的成就的启发。

统一生成模型。可分为判别模型和生成模型。有几项研究从模型开发的角度对通用框架进行了研究。由于跨模态检索的发展,单一任务框架无法满足多种任务的需求。因此,研究[80]探索了一种基于文本生成模型的统一框架。该框架同时兼容多模态任务学习。该方法是有条件文本生成,即图像和文本产生文本标签,任务之间的知识可以共享。此外,UNICORN [81] 将文本和边界框格式连接起来,旨在实现统一的视觉语言建模。该模型框架将文本生成和边界框预测结合在一起,可针对各种问题动态设计不同的头。Pix2Seq 模型是启发 UNICORN 的通用目标检测框架。它采用离散方法将边界框位置转换为离散令牌序列。生成式对抗网络通过学习底层数据分布来改进图像合成。然而,利用图像生成任务对其他视觉任务的研究却很少。VILLA 是第一种集成大规模对抗训练以提高模型泛化能力的技术。它是一个综合框架,可利用任何预训练模型来提高模型的泛化能力。换句话说,VILLA 在预训练和微调阶段采用对抗学习。作为深度学习中自监督学习技术的一个分支,统一生成模型侧重于定义数据生产过程。
表 3 总结了 V-L 架构的优缺点。通用表示法具有多种优势,如通过减少多个任务的计算资源和训练时间,提高了准确性、泛化能力和效率。但是,由于视觉和语言之间的交互错综复杂,它也面临着复杂性增加、特定模态信息可能丢失和可解释性有限等挑战。另一方面,统一生成模型具有根据一种模态的输入生成另一种模态的输出的能力,从而在跨模态检索中表现更佳。然而,这些模型的灵活性有限,在训练过程中复杂性增加,而且过拟合的风险较高,这主要是因为它们同时生成多种模态的表征,这可能需要多样化的训练数据来防止过拟合。
在这里插入图片描述
表3.V-L体系结构的优点和缺点

损失函数

损失函数将通过比较模型的预期输出和期望输出来评估模型的性能,然后确定优化方向。如果两者之间的差异特别大,损失值就会很大。相反,如果两者相差甚微或大致相等,损失值就会很小。因此,在数据集上训练模型时,需要一个适当的损失函数来正确惩罚模型。本节定义了主要损失函数和性能分析方法。我们总结了跨模态任务中损失函数的创新样本,如图 4 所示。
在这里插入图片描述
图4.损失函数的创新样本

评估指标

有多种评价指标来证明跨模态检索的有效性。使用适当的指标来评估特定场景中方法的有效性。在本节中,主要的评估指标:精确度(P)、召回率(Recall@K),PR曲线(PR)、平均精度(mAP)、F评分(FS)和归一化贴现累积增益(NDCG)。

基准数据集

基准数据集通常用于评估跨模态检索的性能。表4显示了对经典跨模态数据集的分析和解释,包括数据集的名称、图像和文本的数量以及描述。
在这里插入图片描述
表4.促进跨模态检索的代表性数据集摘要

结论

深度学习研究极大地推动了跨模态检索的发展,提供了优雅的解决方案并推动了实质性进展。在本文中,我们对众多著名研究进行了全面总结和分析,并提出了跨模态检索机制分类法。我们还从表征学习的角度讨论了指导未来研究的挑战和未决问题。为了提供对全周期方法的整体理解,我们介绍了预处理、特征工程、编码、跨模态交互、解码、模型优化和评估指标。此外,我们还使用了表格、数字和方程式来提高主要研究的清晰度。
尽管做出了大量努力,但在跨模态检索中实现最佳结果和精确度仍是一项持续的挑战。主要障碍包括特征表示、复杂语义处理、视觉语言对齐、统一架构、模型优化、性能评估指标以及开发更全面的数据集

猜你喜欢

转载自blog.csdn.net/zag666/article/details/132253815