NetVLAD：CNN architecture for weakly supervised place recognition

写在前面：博主并不是做这个place recognition方向的，所以这篇paper我大概只看到netvlad层，后面的loss并不懂。因为近期做行为识别，想改进一下帧与帧之间的融合方案，所以过来学习一下vlad。

ps.github的netvlad用pytorch实现的代码并不多啊~好多都是tensorfow写的，可读性非常差....

abstract

本文的两点贡献：

1）提出NetVLAD,改进了原始的VLAD，该层可接在CNN结构后面

2）提出一种训练方案，based on a new weakly supervised ranking loss，使得VALD在CNN中的应用变成end-to-end

Method

1）给定一张图片Ii，函数f（放在网络中，就是一系列卷积+bn+激活+pooling等）产生一个固定size的向量，f(Ii)。如何优化产生的向量表征f(Ii)？通过改进的netvald。

2）place recognition的整体框架

a）我们裁剪掉CNN的最后一个卷积层之后的其他层，并将它视为 a dense descriptor extractor。那么最后一个卷积层的输出为H*W*D的特征，对于每个空间点，都是一个D维度的向量。

b）参考VLAD，设计新的pooling层，即NetVLAD，将得到的特征转化为固定大小的图像表征

3）NetVLAD

回顾一下VLAD：captures information about the statistics of local descriptors aggregated over the image。给定N个D维度的图像描述符{xi}和k个聚类中心{ck}，则VLAD的输出为V，V是K*D维向量，V中第（j，k）个元素的计算方式：