跨模态检索论文阅读:Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching

Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching
基于梯度注意力的离散-连续行动空间策略用于图像-文本匹配

现有的跨模态图文检索方法并没有明确地将不同的模态转换到一个共同的空间。同时,在图像-文本匹配模型中广泛使用的注意力机制不具备监督功能。我们提出了一种新颖的注意力方案,它将图像和文本嵌入投射到一个共同的空间,并直接根据评估指标优化注意力权重。所提出的注意力方案可视为一种监督注意力,无需额外注释。它通过一种新颖的离散-连续动作空间策略梯度算法进行训练,与之前的连续动作空间策略梯度算法相比,该算法在模拟复杂动作空间时更加有效。我们在 Flickr30k 和 MS-COCO 这两个广泛使用的基准数据集上对所提出的方法进行了评估,结果表明这些方法远远优于之前的方法。

简介

度量学习在视觉语义嵌入方面非常强大,因为它试图测量和处理样本之间的相似性,而不考虑领域差异。然而,它在设计时并没有考虑从一种模态到另一种模态的明确转换,这往往会导致性能不理想。虽然有一些方法应用了实例损失(Instance Loss),即对图像和文本类别进行分类,从而形成一种具有图像-文本匹配度量学习损失的多任务学习方法,但由于实例损失优化了类别域中的嵌入,也没有进行显式转换,因此性能提升有限。图像通常包含许多细粒度对象。来自普通深度 CNN 模型(如 ResNet)的平面向量表示不足以发现这些对象及其关系。因此,先进的方法会使用预先训练好的目标检测器中的图像特征,并在这些特征上应用视觉注意力机制,以区分重要特征和不相关特征。注意机制在各种计算机视觉任务中发挥着重要作用。在这些模型中,注意力机制被视为隐藏神经元,但由于缺乏直接监督,往往会导致图像特征选择错误。

本文为了对图像文本匹配中的注意力机制进行明确的转换和监督,我们提出了一种策略梯度(PG)优化图像文本匹配中视觉和文本特征的注意力调整方法。在我们的方法中,注意力权重可被视为从特定模态到共同空间的转换,因为注意力权重在最后用于匹配的图像和文本向量中执行向量转换,而不是在深度学习模型的前几层中选择重要特征。注意力权重由 PG 方法训练,采用批次排序指标和实例平均精度(AP)作为奖励函数。这些注意力权重通过 PG 算法直接优化,以获得最佳排名结果和更高的 AP 指标。它可以被视为一种有监督的注意力机制,而且这种监督不需要任何额外的注释。这种基于 PG 的注意力机制简单明了,并能优化评价指标。与传统的软注意力相比,它的精确度更高,而传统的软注意力只是一个普通的神经元。
在这里插入图片描述
图 1:动机:注意力权重是从每种模式到一个共同空间的投影。 现有的连续 PG 假设为简单的正态分布。相反,我们首先将平均值视为离散动作,然后使用多个正态分布形成复合分布,这样更符合实际情况。

更具体地说,如图 1 所示,我们将注意力权重的生成视为 PG 中的动作选择过程,其空间可以灵活预设。传统 PG 中的动作空间是离散的,不适合像注意力机制中那样进行特征调整。一种解决方案是应用连续的动作空间 PG 算法,该算法将动作空间视为高斯分布,并从该分布中采样动作值。将动作分布限制为正态分布并非最佳选择,而且这种假设缺乏理论和实践支持。在现实中,动作空间的分布可能非常复杂,无法用简单的正态分布来描述。因此,我们认为动作是连续的,并从具有不同均值(μ)和标准差(σ)的多个正态分布中采样。我们首先将 μ 视为离散动作,从预先定义的动作空间中采样,而 σ 则从神经模型中获得,因为它是连续的。我们希望利用 μ 和 σ 形成正态分布,并从该分布中抽取连续动作样本,将其用作注意力权重,以调整视觉嵌入和文本嵌入的特征表征。通常,在传统的 PG 中,我们不需要 μ 是可训练的,因为我们只需将梯度反向传播到对数概率。相比之下,在这种情况下,随后得到的正态分布需要 μ 能够反向传播,以使正态分布具有可学习性。由于在获取 μ 的过程中涉及采样,因此目前的形式无法对其进行训练。为了使 μ 可微分,我们不直接使用贪婪采样或∈-贪婪采样。我们使用 Gumbel-softmax 来放松离散性,使采样后的μ 与正态分布一起可训练。我们称这种方法为 “离散-连续 PG”,因为它同时涉及离散和连续的行动空间,使二者相互受益。事实上,通过使用离散和连续动作空间,用于采样注意力权重的动作空间是一个复合分布,可以模拟高复杂度分布。

贡献

我们在图像-文本匹配任务中评估了我们的算法和模型,并在两个广泛使用的基准数据集上取得了一流的性能。总而言之,我们的贡献有三个方面:
(1) 我们为图像文本匹配任务提出了一种基于策略梯度的新型注意力监督方案。
(2) 我们利用离散和连续的行动空间,提出了一种新的离散-连续策略梯度算法。
(3) 取得的先进结果验证了注意力监督方案和新型策略梯度算法的有效性。

相关工作

图像-文本匹配

Frome 等人[6] 通过 CNN 和 Skip-Gram 提出了一种用于跨模态匹配的特征嵌入方法。他们还利用排序损失来测量相似配对之间的距离。《VSE++: Improving visual-semantic embeddings with hard negatives. In BMVC, 2018》的研究重点是三重损失中的硬负挖掘,结果有所改进。Zheng 等人[37]在大量类别中使用了实例损失。他们发现实例损失有助于图像-文本匹配。Gu 等人[8]通过研究生成模型改进了跨模态问题。Li 等人[19]利用图神经网络和图像标题损失提出了一种视觉语义推理框架。该视觉语义推理模型可对图像特征的语义关系进行推理,性能良好。

注意力机制

视觉注意力机制[35]已被广泛应用于多种计算机视觉应用中。其中,自下而上的注意模型《Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.》是当前图像字幕、视觉问题解答和图像-文本匹配的主流。然而,关于有监督注意力的研究并不多。Gan 等人[7]提出了一种利用注意力注释进行视觉问题解答的有监督注意力方案。Kamigaito 等人[13]也在自然语言处理任务中使用注意力注释来监督注意力。相反,我们提出了一种基于强化学习的监督注意力机制,它能使注意力模块直接朝着特定目标(如 AP)进行优化。此外,我们提出的注意力模块不需要任何额外的注释。

连续行动空间策略梯度

对连续控制问题的研究由来已久。例如,Lillicrap 等人 [20] 通过考虑连续行动空间,提出了深度确定性策略梯度。之前的研究利用了离散和连续行动空间之间的关系。例如,Dulacc-Arnold 等人[3] 利用底层连续行动空间的连续性对离散行动进行泛化。Pazis 等人[27] 通过使用二进制离散动作空间,将连续控制问题转换为离散控制问题。Tang 等人[31]的研究表明,将连续控制的行动空间离散化是一种简单而强大的策略优化技术。我们还考虑将离散和连续的行动空间结合起来进行政策优化。我们证明了复合分布优于严格假设的正态分布。

提出的方法

我们的目标是调整生成的视觉和文本特征,以促进图像-文本匹配。我们首先在图像的自下而上注意力《Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.》特征上应用图卷积神经网络[34],这与视觉语义推理网络(VSRN)《Visual semantic reasoning for image-text matching. In ICCV, 2019.》类似。获得视觉特征后,我们再使用离散-连续动作空间 PG 生成注意力权重,用于调整视觉特征。同样,文本特征也是通过基于离散-连续 PG 的注意力机制进行调整的。通过多任务损失(包括三重损失、实例损失和文本解码损失)对获得的图像和文本嵌入进行训练。方法的原理图如图 2 所示。

图像和文本特征提取

GCN 用于图像区域特征推理。我们采用的 GCN 模型类似于 VSRN 方法。具体来说,图像区域特征之间的语义关系是通过成对亲和力来衡量的。
在这里插入图片描述

其中,Fi 和 Fj 是通过 Faster R-CNN 检测器获得的两个自下而上的图像区域特征。Ei 和 Ej 是嵌入函数,通常是矩阵乘法,可以通过反向传播学习。然后构建一个全连接关系图 Gr = (V,E)。V 是检测到的图像区域特征集,E 是边缘集,其中每条边缘都由关系矩阵 Relation(Fi, Fj) 描述,如公式 1 所示。我们应用 GCN 对这个全连接图进行推理。GCN 推理的输出表示为 Image = {I1, …, It, …, IT }。
文本嵌入:给定以 w 表示的one-hot文本表示,构建线性词嵌入层以获得词表示,表示为 We = {w1 e , …, wi e, …, wN e },其中 wi e= word-embedding(wi)。

提出的离散-连续动作空间 PG

PG 通常使用离散动作空间,原因有二:许多控制问题都是在离散动作空间中建模的,由于它可以模拟复杂的动作分布,因此性能较高。然而,当遇到连续动作空间控制问题时,我们必须开发相应的 PG 算法。然而,如前所述,连续动作空间 PG 通常假定动作遵循正态分布,这过于严格。我们提出了一种从复合分布中对连续动作进行采样的方法,它能更好地模拟真实分布。

离散动作采样:如图 2 所示,我们首先将注意力权重生成过程建模为有限马尔可夫决策过程(MDP),然后使用多叉采样法对离散动作进行采样。我们定义了 n 个行动类别,即 A = {a1,a2,…,an},状态空间包含输入区域特征和迄今为止生成的注意力权重,即 st = {I0,Att0…,It-1,Att-1}。策略通过 GRU 模型进行参数化,以探索环境并对行动进行采样。更正式地说:
在这里插入图片描述
其中,It 是 GCN 推理后的第 t 个图像特征。GRUmdp 是用于将注意力权重生成问题建模为 MDP 的门控循环单元(GRU)。W t μ∈ Rs×n 是需要学习的权重。S 是特征向量的大小。Atg 是经过 Gumbel-sof tmax 激活后每个动作的概率。
在这里插入图片描述
其中,Wstd ∈ Rs×1 是需要学习的权重。
在这里插入图片描述

图 2:提出方法的示意图: 图像和文本被传送到模型中。提取的图像特征首先通过 GCN 模型进行处理,以推理语义关系。然后,将区域特征输入提出的离散-连续 PG 算法,以生成注意力图,随后应用该算法调整和融合区域特征。同样,文本嵌入也通过离散-连续 PG 算法生成的注意力图进行调整。然后,将最终的图像和文本嵌入与公制学习损失、离散 PG 损失和连续 PG 损失连接起来进行训练。

连续行动采样:采样的 μ 和 σ 构成一个正态分布,描述如下:
在这里插入图片描述
其中 Attt 为从该正态分布中采样的注意力权重。该正态分布的对数概率表示为:
在这里插入图片描述
离散 PG 优化:为了简单高效,我们将 PG 表述为一种在线学习方法,特别是 REINFORCE 算法。离散行动空间的 PG 就是最大化长期奖励,表达式如下:
在这里插入图片描述
我们使用 Monte-Carlo 一次抽样来估算累积奖励,即在这里插入图片描述其中R 是奖励,将在后面定义。此外,log πθ(at | st) = logprobta,由等式 2 得出。因此,等式 6 可以得出如下 PG 损失函数:
在这里插入图片描述
其中 B 是每个小批量的大小。请注意,右侧的负号表示我们希望将损失最小化,从而使 R 最大化。

连续 PG 优化:等式 5 提供了正态分布对数概率的直接定义。同样,连续行动空间的 PG 损失如下所示:
在这里插入图片描述
奖励函数公式:奖励信号具有重要意义,因为它可以引导注意力的生成过程,而这正是 PG 方法的最初目标。奖励信号来自使用 R@K 和平均精度(Average Precision,AP)对图像和文本嵌入进行的在线评估。具体来说,我们将每个样本视为一个类别,并在一批样本中在线计算其 R@1 和 AP。 因此,后续信号可以表示为 R@1 和 AP 结果的线性组合:
在这里插入图片描述
然后,我们利用这一奖励来指导所提出的 PG 算法生成注意力权重,从而自动调整图像和文本特征,为图像-文本匹配任务制定更有效的嵌入。为了进一步减少差异并使 PG 训练更加稳定,我们还额外应用了 PG 基线,它是一批实例中所有其他实例的平均奖励,表示为:
在这里插入图片描述
其中 K 是批次大小,bk 是第 k 个实例的基线,Rj 是第 j 个实例的奖励。我们在基线上使用系数 β = 0.5,根据经验,该系数更好。

特征融合

可以使用生成的注意力权重来调整图像嵌入。 回想一下图像区域特征为Image={I1,…,It,…,IT},而生成的注意力权重为ATT={Att1,…,Attt,…,AttT},我们使用元素相乘来调整图像区域特征与注意力权重。
在这里插入图片描述
其中 IA 代表调整后的图像区域特征。GRUIgr 用于对调整后的图像特征进行全局推理。融合特征是 GRUgr 和调整后的图像区域特征输出的总和。IE 是图像嵌入。

同样,我们将同样的方法应用于文本嵌入的生成。需要注意的是,我们直接将所提出的离散-连续 PG 应用于文字嵌入 We

那么,文本嵌入生成的特征调整和融合过程可表述如下:
在这里插入图片描述
其中,TA 是调整后的文本特征,ATTT 是为文本嵌入生成的注意力权重。TE是文本嵌入。

损失函数

为了完成图像-文本匹配任务,我们应用了跨模态三重损失、实例损失、文本解码损失以及提出的 PG 损失来训练模型。模型的最终损失目标函数描述如下:
在这里插入图片描述
其中,Losstriplet是hinge-based三重排序损失。Lossxe是交叉熵分类损失,它将每个实例视为一个类别。LossItd和 LossTtd分别是图像到文本解码损失和文本到文本解码损失。它们将图像或文本嵌入解码为句子。请注意,文本解码模块的权重在图像和文本分支之间共享。
三重损失表示如下:
在这里插入图片描述
其中,α 是边际超参数。[x]+=max(x,0)。S(·) 是相似度函数;ˆI 和ˆT 是一个positive pair(I,T)的hardest negatives。

对于文本解码损失,我们使用卷积图像字幕模型《Convolutional image captioning. In CVPR, 2018.》作为图像和文本解码模块的解码器。 我们使用与 它相同的损失函数,它具有并行训练文本解码的能力,比基于 RNN 的损失函数更高效。

实验

为了评估所提出的离散-连续 PG 算法的有效性,我们按照之前的研究进行了两种实验,包括使用图像进行句子检索和使用句子进行图像检索。

数据集和协议

我们在 Flickr30K 和 Microsoft-COCO 数据集上评估了我们方法的性能。 我们使用标准的训练、验证和测试拆分,分别包含 28,000 张图像、1,000 张图像和 1,000 张图像。MS-COCO 数据集包括用于训练的 113287 幅图像、用于验证的 5000 幅图像和用于测试的 5000 幅图像。每幅图像有五个标题。我们使用的评估协议是K 时的召回性能(R@K),定义为在与每个查询最近的 K 个样本中检索到正确项目的查询比例。

实现细节

我们基于 PyTorch建立模型。我们使用《Visual semantic reasoning for image-text matching. In ICCV, 2019.》提供的预训练bottom-up attention图像特征。单词嵌入大小为 300,图像和文本嵌入维度为 2048。我们模型中使用的 GRU 模块的隐藏大小为 2048。我们预先定义了 100 个离散的动作类别,分别为{0, 1, 2, …, ai, … 100},其中 ai 对应于放大特征的动作,其值为 ai/λ,λ 是一个超参数。请注意,行动类别数量的选择主要是经验性的。我们选择 100,因为它接近于图像区域的最大数量,也接近于句子的最大字数,足以描述图像区域的每个项目与句子之间的差异。详细解释见公式 11 和 12。在训练时,我们使用 Adam optimiser以 128 的mini-batch size训练模型,共训练 30 个epochs。我们以 4e-4 的学习率开始训练 15 个 epochs,然后将学习率降至 4e-5 再训练 15 个 epochs。我们采用早停技巧来选择在验证集中表现最好的模型。对于跨模态三重排序损失,所有实验的边际值都设定为 0.2。对于分类损失,Flickr30K 数据集有 29 783 个类别,MS-COCO 数据集有 113 287 个类别。我们在配备 Nvidia Geforce 2080-TI GPU 显卡和 Windows 10 操作系统的服务器上进行了所有实验。

与最先进方法的比较

Flickr30k的结果:表 1 列出了 Flickr30k 数据集上的结果以及与当前最先进方法的比较。我们还指出了每种最先进方法所使用的骨干网络,如 AlexNet、VGG、ResNet、Faster R-CNN。所提出的方法在很大程度上优于其他方法。SCAN和 VSRN是与我们的方法接近的两种方法。我们的方法与它们的不同之处主要在于所提出的基于 PG 的监督特征关注机制,因为 VSRN 和我们的方法都使用了相同的跨模态三重丢失和文本解码损失。因此,主要的性能增益来自于所提出的离散连续 PG 算法,该算法有效地改进了与 VSRN 模型类似的现有基线模型。具体来说,我们在使用图像进行字幕检索时实现了 82.8% 的 R@1,在使用字幕进行图像检索时实现了 62.2% 的 R@1。
在这里插入图片描述
表 1:Flickr30k 数据集的图像-文本匹配比较

MS-COCO 的结果:表 2 和表 3 分别列出了在 1K 和 5K MS-COCO 数据集上的实验结果以及与最先进模型的比较。对于 1K 测试协议,结果是通过对 1K 测试图像进行 5 次折叠后得出的平均值。在与目前最好的方法 SCAN 和 VSRN进行比较时,我们采用了相同的策略,通过平均两个模型的预测相似度得分来合并两个训练有素的提出的模型的结果。如表 2 所示,我们提出的模型在使用图像进行标题检索方面取得了 84.0% 的 R@1,在使用标题进行图像检索方面取得了 63.9% 的 R@1。结果大大优于 VSRN 和 SCAN。对于 5K 测试协议,我们使用整个 5K 测试样本来评估所提出的模型。从表 3 中可以明显看出,我们的方法达到了新的一流水平,在使用图像进行标题检索和使用标题进行图像检索方面分别达到了 68.7% R@1 和 46.2% R@1。
在这里插入图片描述
表 2:1K 测试集 MSCOCO 数据集上图像-文本匹配的比较
在这里插入图片描述
表 3:5K 测试集 MSCOCO 数据集上图像-文本匹配的比较

消融研究

基线:我们对提出模型的每个组成部分进行了消融研究,结果如表 4 所示。我们首先评估了只有三重损失的模型,结果相对较差。在模型中加入实例损失后,排名结果有了有限的提高。同样,文本解码损失也提高了模型的性能,这证明它有助于缩小不同模态之间的领域差距。我们的基线模型包含了所有三种损失函数。

离散-连续 PG 方法的影响:基于基线模型,为了验证所提出的离散连续行动空间策略梯度算法的优越性,我们首先将其与传统的离散行动空间策略梯度方案进行了比较。为了实现离散 PG 方案,我们取消了连续行动空间采样,直接利用离散行动作为注意力权重。提出的方法比离散 PG 方案产生了更好的结果。其次,我们只应用了一个基于高斯的连续动作空间 PG 方案。由于我们形成的复杂分布能更好地描述行动空间的真实分布,因此我们的方案结果也比单一高斯 PG 更好,结果如表 4 所示。
在这里插入图片描述
表 4:对 Fickr30k 数据集的消融研究

不同奖励函数的影响:然后,我们对奖励函数进行了消融研究,结果表明,使用批量 R@1 结合实例 AP 作为奖励的性能最佳。需要注意的是,单用 AP 比 R@1 奖励更好,因为 AP 评估更全面,而且实例奖励比批量奖励更准确。为了进一步减少方差,使 PG 训练更加稳定,我们额外应用了 PG 基线。我们随后评估了 PG 基线的影响,由于 PG 基线可以稳定训练并降低这种在线 PG 方法的方差,因此其性能略好。我们对提出的方法进行了评估,该方法在很大程度上提高了消融研究的性能,图像和标题检索的 R@1 指标提高了 5%以上。λ值控制着注意力权重的大小,这一点非常重要。消减研究表明,合适的 λ (20) 值对于保持良好的性能至关重要,尽管我们的方法在使用不同的 λ 时都取得了优异的结果。

应用多头机制的影响:多头机制被广泛应用于Transformer等著名模型中,通常还能带来额外的改进。我们验证了多头机制对提出的PG 算法的积极影响。具体来说,我们对潜在的离散 μ 和 σ 值采用多头机制,头数为 2。实证结果表明,多头机制可以从本质上反映抽样潜分布的不同方面,从而提高性能。

使用预训练 GloVe 词嵌入的影响:在 vanilla VSRN 基线中,单词嵌入模块是可训练的。我们研究了预先训练的 GloVe 词嵌入模块的影响,如表所示。应用预训练的 GloVe 词嵌入可以略微提高匹配性能,因为它嵌入了一些先验信息。

可视化

我们在图 3 和图 4 中可视化了图像和文本的检索结果和注意力图谱。从图中可以明显看出,注意图可以捕捉到预期的图像区域,而语言注意图则可以反映出重要的语义。图中还提供了一些错误的例子,这些例子具有相似的语义内容或相似的视觉布局。图 5 展示了训练损失曲线和奖励函数曲线的可视化效果。三重损失、实例损失和文本解码损失都随着训练的进行而减少。奖励值则不断增加,从而验证了所提出的离散-连续 PG 方法。
在这里插入图片描述
图 3:标题检索结果和注意力机制的可视化。我们选择前 3 个检索结果,其中 X 表示检索结果正确,而 × 表示检索结果错误
在这里插入图片描述
图 4:图像检索结果和注意力机制的可视化
在这里插入图片描述
图 5:实例损失、三重(检索)损失、文本解码损失和奖励曲线如图所示

结论

在本文中,我们提出了一种新颖的基于策略梯度的注意力机制,将图像和文本嵌入转换到一个共同的空间,并优化它们以实现更高的 AP。为了在注意力权重采样中模拟复杂的动作空间,我们提出了一种具有复合动作空间分布的离散-连续动作空间策略梯度算法。在两个广泛使用的基准数据集上进行的综合实验验证了所提方法的有效性,从而实现了最先进的性能。

猜你喜欢

转载自blog.csdn.net/zag666/article/details/129192287