跨模态检索论文阅读:Cross Modal Retrieval with Querybank Normalisation

Cross Modal Retrieval with Querybank Normalisation基于QueryBank归一化的跨模态检索

概述

利用大规模的训练数据集、神经结构设计的进步和高效的推理,联合嵌入式已经成为解决跨模式检索的主流方法。本文表明,尽管它们很有效,但最先进的联合内嵌技术受到长期存在的 "hubness问题 "的严重影响,在这个问题上,少量的图库内嵌形成了许多查询的最近邻居。 从NLP文献中得到启发,本文提出了一个简单而有效的框架,称为Querybank Normal-isation (QB-NORM),对查询的相似性进行重新规范,以考虑嵌入空间中的hubs。 与先前的工作不同,我们表明QB-NORM在不同时访问任何测试集查询的情况下也能有效地工作。 在QB-NORM框架内,我们还提出了一种新的相似性归一化方法–动态反转Softmax,它比现有的方法明显更强大。我们在一系列跨模态检索模型和基准中展示了QB-NORM,它不断地增强了强大的基线,超越了现有技术水平。

1.简介

在这里插入图片描述
图1:左:中心问题。我们考虑交叉模态检索的问题,其中查询q1和q2与样本库x1和x2进行比较。用于跨模态检索的现代方法所采用的高维联合嵌入受到“hub问题”的困扰。一个中心(例如x2)是多个查询(q1和q2)的最近邻居,产生低质量的检索结果(左下)。
右图:Querybank Normalisation使用Querybank对相似度进行归一化,降低了中心x2与查询q1的相似度,提高了检索结果(右下)。

占主导地位的跨模态嵌入范式采用了深度神经网络,将特定模态的样本投射到一个高维、实值的向量空间中,在这个空间中可以通过适当的距离度量直接进行比较。这种方法的一个关键挑战是,这种高维空间所固有的 “中心(hubs)”–出现在许多其他嵌入向量的最近邻集合中的嵌入向量。

在一系列领先的检索方法中,hubness普遍存在。如果不加以处理,Hubs会导致检索系统产生的搜索排名显著下降。本工作的一个贡献是展示了如何在一个统一的概念框架中解释这些方法,称为Querybank归一化 (QB-NORM,图1右),在推理过程中使用样本问题库来减少库中hubs的影响。现有的方法有两个挑战:(1)到目前为止,这些方法只被证明适用于对多个测试查询的并发访问——这一假设对于现实世界的检索系统是不切实际的;(2)它们对查询库的选择很敏感,并且确实会积极地损害某些查询库的性能(表2)。为了解决第一个挑战,我们通过仔细的实验(表1)证明QBNORM不需要并发访问测试查询才能有效。为了解决第二个挑战,我们提出了一种新的归一化方法——动态反向Softmax (DIS),它作为QB-NORM框架中的一个模块运行。我们证明DIS提供了有效的归一化,比以前的方法更健壮。

本文贡献:

1.提出了Querybank Normalisation(QB-NORM),这是一个简单的非参数框架,在不需要模型微调的情况下带来了检索性能的显著提升;
2.首次(就我们所知)证明,在无法获得当前查询之外的测试查询的情况下,Querybank归一化方法保持了其对跨模式检索的有效性;
3.我们提出了动态反向Softmax,这是一种用于Querybank归一化的新型归一化方法,比之前的文献更加稳健;
4.QB-NORM在广泛的任务、模型和基准中都非常有效。

2.相关工作


跨模态检索中的hubs问题
是指在一个跨模态检索系统中,存在一些数据样本(称为“hubs”),它们在多个模态中都具有较高的相似度,从而影响了检索的准确性。具体来说,如果一个hub同时在多个模态中出现,则它会成为多个模态之间的桥梁,从而导致其他样本在跨模态检索中的相似度计算中受到影响。

解决跨模态检索中的hubs问题通常需要采取多种策略,包括:
基于聚类的方法:通过对数据样本进行聚类,将hubs分组到不同的簇中,从而降低它们对不同模态之间的相似度计算的影响。
基于降维的方法:通过对数据样本进行降维处理,减少数据维度,从而使跨模态检索系统更加鲁棒,减少hub的影响。
基于正则化的方法:通过对跨模态检索系统的目标函数进行正则化处理,约束hubs的权重,从而降低它们对相似度计算的影响。
基于重要性权重的方法:给每个数据样本赋予一个重要性权重,通过调整hubs的权重,减少它们对跨模态检索系统的影响。
总之,解决跨模态检索中的hubs问题是一个复杂的问题,需要综合考虑多种因素,采取多种方法。


Hubness缓解
一种范式专注于重新调整尺度——用相似度空间来解释最近邻居关系中的不对称——这一过程可以通过局部和全局缩放方案来实现。

3.方法

QB-NORM是一种用于跨模态检索中的跨域归一化方法。在跨模态检索中,由于不同模态的数据具有不同的统计特征,因此需要对它们进行归一化处理,使得它们具有相同的统计特征,从而方便跨模态检索的相似度计算。QB-NORM方法通过学习一个映射函数,将不同模态的数据映射到同一分布上,从而实现跨域归一化。

QB-NORM方法的具体步骤如下:
假设有m个模态的数据,对每个模态的数据进行标准化,使得它们的均值为0,方差为1。
将标准化后的数据按列合并成一个大矩阵X。
对X进行主成分分析(PCA),将其降到k维(k<<m)。
将PCA得到的前k个主成分作为一个新的特征表示,用于跨模态检索中的相似度计算。
对每个模态的数据进行线性映射,得到与PCA的前k个主成分相对应的特征表示。
将每个模态的数据的特征表示通过线性映射与主成分特征表示进行叠加,得到最终的跨域归一化后的特征表示。

QB-NORM方法可以有效地降低不同模态之间的差异,提高跨模态检索的准确性。同时,QB-NORM方法具有计算简单、易于实现等优点,在实际应用中具有较广泛的应用。

结论

本文介绍了用于枢纽缓解的Querybank Normalisation框架,提出了用于健壮相似性归一化的动态反转Softmax。证明了其在一系列任务、模型和基准中的广泛适用性。

猜你喜欢

转载自blog.csdn.net/zag666/article/details/129811622
今日推荐