大规模图像检索深度特征:Large-Scale Image Retrieval with Attentive Deep Local Features

在今年CVPR的“Revisiting Oxford and Paris_ Large-Scale Image Retrieval Benchmarking”一文中,对比了当前几种比较优异的图像检索算法在landmark中的表现,其中由“Large-Scale Image Retrieval with Attentive Deep Local Features”提出的DELF特征展现出最为突出的检索精度。

论文摘要:

我们提出了一种适合于大规模图像检索的局部特征,称为DELF(Deep Local Feature)。新的特征是利用卷积神经网络,基于图像级别标注的地标图像数据进行训练的。为了确保该局部特征对图像检索任务的有效性,我们还引入了一个对关键点进行选取的注意力机制,该机制与局部特征共享大部分的网络参数。本文提出的框架可以替代图像检索领域的其它关键点特征提取方式,带来更高精度的特征匹配和几何验证。我们的系统对于拒绝假阳性具有很好的置信度,具体来讲,其对数据库中没有相关匹配的查询图像是鲁棒的。为了验证我们提出的特征,我们推出了一个新的大规模数据集—Google-Landmarks数据集。该数据集的查询图像及数据集都充满了挑战性,包括杂乱的背景、部分遮挡、多地标、不同尺度等等。实验表明,在大规模的设定中DELF明显优于当前的全局及局部特征。

推出的数据集:Google-Landmarks

在本文之前的地标数据集如Oxford5k及Paris6kdeng只有数十张查询图像,严重限制了地标的多样性。本文推出的Google-Landmarks包含来自大约一万三千个地标的超过一百万张图像。查询图像是由额外的十万张图像组成,其中包含一些与数据集图像没有匹配项的查询图,使得该数据集更具挑战性。
地标数量:12,894
数据集图像数量:1,060,709
查询图像数量:111,036
图像来自于全球各地的地标,且每一张图像都含有GPS信息。

系统的四个部分:

1)局部密集特征提取
2)关键点选择
3)维度约减
4)索引和查询

1.局部密集特征提取

利用全卷积神经网络提取特征,采用模型为ResNet50,输出层为conv4_x。为了解决尺度变换问题构建了图像金字塔,并利用FCN对每一个尺度下图像进行的单独处理。

使用在ImageNet上预训练的ResNet50作为基准,并针对强化局部描述显著性进行微调。由于考虑到在地标识别方面的应用,训练采用了具有标注信息的地标图像[A. Babenko et.al Neural Codes for Image Retrieval. In Proc. ECCV, 2014],损失函数采用的是针对图像分类问题的标准交叉熵损失。

图像预处理:从图像中心裁剪出一个方形区域,并将尺度统一变换到250×250,随机裁剪出224×224大小的图像进行训练。

2.关键点选取

通过训练一个带有attention的地标分类器来测量局部特征之间的相关性(relevance scores)。为了实现该训练,利用加权的求和池化对特征进行处理,其中池化的权重由attention网络获得。整个结构如上图figure4 (b)所示。

利用attention网络获得加权求和池化的权重,训练过程与上一步相似。

总体的训练分两部分进行:第一步,fine-tune网络获取特征;第二步,利用固定的特征训练score function.

3. 维度约减

L2 normalized--PCA to 40D--L2 normalized

4. 查询系统

查询系统基于最近邻查询法,结合了KD-tree和乘积量化(PQ)。利用PQ将特征编码为50bit的编码,其中每一个40D的特征被划分为10个等长度的子向量,让后利用k-means聚类获取每一个子向量32个质心(2^5),从而获得50位的编码。

猜你喜欢

转载自blog.csdn.net/wangxinsheng0901/article/details/81906696