论文阅读:Deep Image Retrieval: Learning global representations for image search

1、R-MAC

参考博客:https://blog.csdn.net/m0_37717568/article/details/72778863

参考文献:Tolias G, Sicre R, Jégou H. Particular object retrieval with integral max-pooling of CNN activations[J]. arXiv preprint arXiv:1511.05879, 2015.

步骤: 

1. 产生regions

regions产生在feature maps上,而不是原图上。

在L个不同的尺度上产生正方形regions。在最大的尺度$l=1$上,region的尺寸最大。如图所示,依次为l=1,2,3。

在某一个尺度$l$上,类似于滑动窗口,只需保证连续的两个region之间的重叠率接近于40%即可。

采样时,regions的宽高为$2\frac{min(W,H)}{l+1}$,共采样$l\times (l+1)$个regions。具体每个尺度上采样多少个跟图像的宽高比是有关的。

假设卷积网络结构中,提取特征的layer产生的feature map大小为$W\times H\times K$。以产生的region R为例,其中的每一层$d (1\leqslant d\leqslant K)$均会产生一个大小位置与R相同的regions。

提取每个region的feature vector,依次进行L2-normalize,PCA-whitening,L2-normalize。

2. 特征表示

以产生的region R为例,从每个$K$层的region中找到其最大的激活值$f(R,d)$,以该最大值代表这个region。

所以R的feature vector可以表示为$f_{R}=[f_{R,1}...f_{R,d}...f_{R,K}]^{^{T}}$,是一个$1\times K$的向量。再次进行L2-normalize。

整张图像的描述记为:

             

2、孪生网络 siamese network

 

3、论文阅读

猜你喜欢

转载自www.cnblogs.com/iwillcontinue/p/11882474.html