多模态视频-文本检索方法

Learning Joint Embedding with Multimodal Cues for Cross-Modal Video-Text Retrieval

简介

本文研究主要针对跨模态视频文本检索任务，学习用于跨模态视频-文本检索任务的联合嵌入模型，如图1所示。

现有的检索方法大多与图像-文本检索方法设计非常相似，主要集中在损失函数上，图像-文本检索是一个相对较为重要的研究领域，人们可能认为直接将这些技术应用于视频-文本检索可以获得最佳的检索效果。然而，这些方法没有利用已经包含在视频中的时间动态和声音等补充信息，这限制了系统的鲁棒性。例如，仅仅根据视觉外观来区分一段标题为“狗叫”的视频和另一段标题为”狗在玩耍”的视频可能是非常困难的，这种情况下将视频的活动内容和声音联系起来，可以提供辅助线索从而提高正确预测的概率。

然而，不恰当的复合特征融合会增加模糊性从而降低性能。在这方面，我们研究如何明智地利用视频中的各种线索来开发一个成功的视频-文本检索系统，并提出了一个新的框架，实现高性能的跨模态的视频-文本检索，框架融合了四种类型的特征(对象、动作、文本和音频)。此外，还提出了一个针对检索任务的改进成对排序损失，它强调 hard negatives 及相关 positive labels 的排序。

方法总览

跨模态视频-文本检索任务的目标是，学习一个嵌入网络将视频特征和文本特征投影到同一联合空间中，然后在潜在空间中通过最近邻策略进行检索。利用视频的多种特征(如对象、动作、地点、时间)对于信息检索显然是至关重要的，在密切相关的视频字幕制作任务中，视频的动态信息和静态外观特征被证明是非常有用的。

在这项工作中，我们建议学习两个联合视频文本嵌入网络作品，如图2所示。

给定一个查询句子，在对象-文本和活动-文本嵌入空间中计算整个数据集中每个视频的相似度得分，并使用相似度得分之和进行信号排序。

这项工作的主要贡献可以总结如下：

视频-文本检索的性能取决于视频理解的健壮性，本文研究如何利用视频中的多模态特征(不同的视觉特征和音频输入)来实现这一目标。
该框架采用动作特征、对象特征、文本特征和音频特征融合的策略进行检索，为了更好地学习联合嵌入，我们还提出了一个改进成对损失。
使用MSR-VTT和MSVD数据集来验证模型的有效性。

方法

输入特征表示

文本特征：对于句子的编码，我们使用门控循环单元(GRU)，将联合嵌入空间的维度 $D$ 设置为1024，词嵌入的维度为300，词嵌入模型和GRU在这个网络中都是end-to-end 训练。

对象特征：对于图像外观编码，我们采用了基于 ImageNet 数据集训练的深度预训练卷积神经网络模型作为编码器，使用最先进的152层 ResNet 模型 ResNet152，我们直接从倒数第二个完全连接的图层中提取图像特征。

活动特征：虽然ResNet CNN可以有效捕捉静态帧中的视觉特征，但是学习视频中快速动态的方法是将2D CNN转化为一个3D CNN的模式，称为I3D。使用 I3D 模型对视频中的活动进行编码。在这项工作中，我们利用预训练的 RGB-I3D 模型，提取1024维特征，其输入为连续的16帧视频。

音频特征：我们使用最先进的 SoundNet CNN 来提取音频特征，得到的音频特征维度为1024。

学习联合嵌入

给定一个视频特征表示(例如，外观特征，或者动作和音频特征的组合)： $\bar{v},\bar{v}\in \mathbb{R}^V$ ，视频特征在联合空间中的映射写作： $v=W^{(u)}\bar{v}(v \in \mathbb{R}^D)$ ，同理，文本嵌入 $\bar{t},\bar{t}\in\mathbb{R}^T$ 及其在联合空间中的表示 $t=W^{(t)}\bar{t},t \in \mathbb{R}^D$ ，此处 $W^{(v)}\in \mathbb{R}^{D\times V}$ 为转换矩阵，同理 $W^{(t)}$ 。给定视频和对应文本的特征表示，目标是学习一个联合嵌入 $\theta$ （即 $W^{(v)},W^{(t)}$ 和GRU权重），将视频内容和语义内容投影到联合嵌入空间中。

在嵌入空间中，视频和文本对之间的相似性可以更好地反映视频和相应文本之间的语义贴近度。许多先进的方法利用成对的排序损失来学习视觉输入和文本输入之间的联合嵌入。为了最大限度地提高视频嵌入和相应文本嵌入之间的相似性，同时尽量减少与其他非匹配嵌入之间的相似性，提出了一种基于hange的三元组排名损失算法，其优化问题可以写作：

\min_{\theta}\sum_v\sum_{t^-}[\alpha-S(v,t)+S(v,t^-)]_++\sum_t\sum_{v^-}[\alpha-S(t,v)+S(t,v^-)]_+

$[f]_+$ 等同于 $max(0,f)$ ， $t^-$ 为不匹配的文本嵌入， $t$ 为匹配的文本嵌入，同理视频嵌入。 $\alpha$ 为成对排序损失的边际价值，评分函数 $S(v,t)$ 评估视频和文本在联合空间的中的相似度，和其他工作一样，文章使用的余弦相似度。

文章提出的排序损失

很多工作证明hard-negatives在嵌入任务中的应用是非常有效的，因此本文的重点也同样放在了hard-negatives上（即一个positive/匹配样本对 $(v,t)$ 的最接近negative 样本），而不是对所有nagatives求和。对于一个positive样本对 $(v,t)$ ，其hardest negative样本定义为 $\hat{v}=\argmax_{v^-}S(t,v^-)$ ，同理 $\hat{t}$ 。则优化问题写作：

\min_{\theta}\sum_v[\alpha-S(v,t)+S(v,\hat{t})]_++\sum_t[\alpha-S(t,v)+S(t,\hat{v})]_+

根据加权排序思想，根据positive 标签的相对排序对损失加权，得到：

\min_{\theta}\sum_vL(r_v)[\alpha-S(v,t)+S(v,\hat{t})]_++\sum_tL(r_t)[\alpha-S(t,v)+S(t,\hat{v})]_+

此处 $L(\cdot)$ 为不同排序的加权函数，定义为 $L(r)=(1+1/(N-r+1))$ ，N为对比视频的数量。

此外，在比较中只比较小批量样本而不是所有样本的方式很常见，有利于降低算力要求，称为semi-hard negative mining ，因此文章设置一个batch-size为128。

代码学习

代码地址