IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

IMRAM: 基于循环注意记忆的迭代匹配跨模态图像-文本检索[Submitted on 8 Mar 2020]

概述

现有的方法利用注意力机制以细粒度的方式探索视觉和语言之间对应关系。然而，它们中的大多数都平等地考虑所有语义，从而统一地对齐它们，而不管它们的复杂性如何。事实上，语义是多样的(即涉及不同种类的语义概念)，人类通常遵循一种潜在的结构将它们组合成可理解的语言。现有的方法很难以最佳方式捕获如此复杂的对应关系。

本文为了解决这一缺陷，提出了一种基于循环注意记忆网络的迭代匹配与循环注意记忆(IMRAM)方法，以渐进的方式探索图像和文本之间的细粒度对应关系，具有两个特点:(1)具有跨模态注意单元的迭代匹配方案，以对齐来自不同模态的片段，(2)记忆蒸馏单元用于将对齐知识从早期步骤细化到后续步骤。在Flickr8K、Flickr30K和MS COCO三个基准数据集以及一个用于实际商业广告场景的新数据集(即KW AI-AD)达到SOTA。

迭代匹配方案可以逐步更新跨模态注意核，积累线索以定位匹配语义，而记忆蒸馏单元可以通过增强跨模态信息的交互性来细化潜在对应。利用这两个特性，可以分布式地处理不同类型的语义，并在不同的匹配步骤中很好地捕获语义。

方法

在这里插入图片描述

跨模态特征表示

图片表示：本文采用了一个预训练的深度CNN，例如Faster R-CNN。具体来说，给定一个图像I，一个CNN检测图像区域并为每个图像区域ri提取一个特征向量fi。我们进一步通过线性投影将fi转化为d维的向量vi，如下所示
在这里插入图片描述
其中Wv和bv是待学习的参数。
为了简单起见，我们将图像表示为V = {vi|i = 1, …, m, vi ∈Rd}，其中m是I中检测到的区域数量。
文本表示：基本上，文本可以用句子级或单词级来表示。为了实现视觉和语言的精细连接，我们提取文本的词级特征，这可以通过一个双向的GRU作为编码器来完成。
在这里插入图片描述

RAM:循环注意记忆(Recurrent Attention Memory)

循环注意记忆的目的是通过循环提炼之前片段对齐的知识，来对齐嵌入空间中的片段。它可以看作是一个块，它吸收了两组特征点，即V和T，并通过跨模态注意单元估计这两组特征点之间的相似性。使用记忆蒸馏单元对注意结果进行精化，为下一步对准提供更多的知识。
跨模态注意单元(CAU)。目的是为X中的每个特征x_i总结Y中的上下文信息。为了实现这一目标，我们首先使用余弦函数计算每对（x_i, y_j）之间的相似性：其中relu(x)=max(0, x)
在这里插入图片描述
记忆蒸馏装置(MDU)。为了为下一次对齐改进对齐知识，我们采用内存蒸馏单元，通过动态地将查询特征X与相应的X-grounded对齐特征Cx聚合来更新查询特征X

实验

实验结果表明，本方法在跨模态图像文本检索中具有很好的效果。不仅能在小数据集Flickr8K和Flickr30K中始终如一地达到最先进的性能，而且在大规模数据集MS COCO中也能很好地证明其鲁棒性。
在这里插入图片描述

在这里插入图片描述

结论

本文提出了一种基于循环注意记忆网络(Recurrent Attention Memory network, IMRAM)的迭代匹配方法，用于跨模态图像-文本检索，以处理语义的复杂性。IMRAM可以以渐进的方式探索图像和文本之间的对应关系，具有两个特点:(1)具有跨模态注意单元的迭代匹配方案，以对齐来自不同模态的片段;(2)记忆蒸馏单元，将知识从早期步骤细化到后期步骤。我们在三个基准(即Flickr8K, Flickr30K和MS COCO)以及一个用于实际商业广告场景的新数据集(即KW AI-AD)上验证了我们的模型。在所有数据集上的实验结果表明，我们的IMRAM始终优于比较方法，并达到了最先进的性能。

跨模态检索论文阅读：IMRAM

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

概述

方法

跨模态特征表示

RAM:循环注意记忆(Recurrent Attention Memory)

实验

结论

猜你喜欢