Geo-localization论文阅读list6

文章目录

Geo-localization论文阅读list6

1. Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization

arxiv 26 Aug 2020

1.1 Thinkings

这是一篇在2020年8月份提交在arxiv上的论文，研究的问题也是Cross-view Geo-localization，所以博主在这里也简要地写一写对这篇论文的理解。

首先，整篇文章的motivation就围绕在目前现存的方法通常专注于挖掘图像中心地理目标的粗粒度特征的提取之上，而往往忽略了地理目标周围区域的环境信息。所以，这篇论文提出了Local Pattern Network (LPN)用于以端到端的方式去挖掘环境信息。

总体来说，整篇论文的contributions如下：

提出了一个简单且有效的LPN模型。不同于现在的方法，LPN显式地挖掘地理目标的周围环境信息。特别是LPN采用了square-ring partition的分割策略去实现这个目的，对于旋转变换的图片也具有很好的扩展性。
在University-1652和CVUSA两个benchmarks上做了实验，验证了方法的有效性，且远超于两个benchmarks上面的baseline方法。最后作者还验证了LPN与现在SOTA方法的互补性，将两者结合能够达到更高的精度。

1.2 Principle Analysis

在这里插入图片描述
方法的整体流程如上图所示。首先从整体来看，整个网络是一个三分枝的Siamese-like网络，从上到下的输入分别是卫星视角图像、无人机视角图像和地面视角图像。不过，在具体实现上，由于卫星视角图像与无人机视角图像都属于空视图像，所以二者的网络参数是共享的。

接下来我们看网络的训练过程，首先将图像输入backbone得到feature maps然后使用square-ring partition将feature maps划分为n（本文n=4）个square-rings。再对每一个square-ring使用一次全局的avgpooling，得到一个一维的representation。也就是说，一副图像在训练的时候可以得到4个一维长度为2048的向量表示。然后，用这四个一维的表示向量输入Classifier得到4个长度为701（因为University-1652的照片来自于701个大学建筑）的one-hot encoding。最后和真实的标签计算交叉熵损失，用于反向传播训练网络。

测试过程就是一个将得到的四个一维向量concatnate起来得到一个一维长向量去表示整个图像。

最后这里放一张实验表格图：
在这里插入图片描述
从上面的表格可以看得出来本文方法和SOTA的SAFA方法很互补。

2. Spatial-Aware Feature Aggregation for Cross-View Image based Geo-Localization

NIPS2019

2.1 Thinkings

现在的深度学习方法都忽略了图像在外观和几何上面的差异，就直接将这种跨视角的图像任务当做一个简单的图像检索与匹配的任务去训练，往往得到了很差的结果。因此，这篇论文提出了一个two-step的方法去完成这个跨视角图像匹配任务。首先，论文利用polar transform将空视图像转换为地面视角的图像，以此缩小两幅图像之间的域差异。然后，作者加入了一种spatial attention机制去克服极坐标转换带来的图像形变问题。最后，为了能够增强feature representation的鲁棒性，作者又引入了一种特征融合策略与spatial attention机制一起使用。

总体来说，本论文的contributions如下：

提出了一个新的pipeline去解决跨视角Geo-localization的问题，即先用polar transform去减小两种视角图像的域差异，再使用标准的图像检索流程。以此让网络能够更加专注于学习更加细节的场景独立的特征信息。
利用了spatial attention机制编码图像中物体的相对位置，且减缓了极坐标转换带来的形变影响，增强了feature representation的鲁棒性。
在CVUSA和CVACT上面做了大量的实验，去得了远超之前SOTA的性能。

2.2 Methodology

2.2.1 Polar Transform

有关Polar Transform的原理分析，这里不再赘述，想要了解可以移步博主的另一篇博客Polar Transform学习记录。

2.2.2 Spatal-Aware Position Embedding Module（SPE）

在这里插入图片描述
SPE模块的原理如上图所示。首先，将backbone提取的feature maps输入逐通道的Max-pooling，这样就可以在空间位置上对信息进行压缩编码。

再将得到的空间位置压缩信息输入Spatial-aware Importance Generator，即一个两层全连接网络组成的模块，输出得到position embedding map（ $P∈R^{H\times W}$ ）。

得到了position embedding map（P）之后，整个图像的特征描述子 $\{k^c\}, c=1,2,3\dots C$ 计算公式如下：

$k^c = <f^c, P>_F$

其中， $f^c$ 就是输入SPE模块feature maps的第c通道， $_F$ 代表Frobenius inner product

2.2.3 Multiple Position-embedded Feature Aggregation

在这里插入图片描述
受到了特征融合策略的启发，本论文通过聚合特征来提高特征代表的鲁棒性。简单来说就是并行地使用多个SPE模块，再将SPE模块得到的输出concatenate起来。这样就可以让有些特征图关注道路的布局，有些则关注树木的布局。