Geo-localization论文阅读list7

文章目录

Geo-localization论文阅读list7

1.Optimal Feature Transport for Cross-View Image Geo-localization

AAAI2020

1.1 Thinkings

本论文的Motivation在于目前SOTA的Cross-View Geo-localization的深度学习方法都忽略了有关特征空间布局的信息，而这部分信息对于人类解决这类问题至关重要。例如，人类在定位或者导航的时候时常会记住物体或者建筑的相对空间位置。所以，模仿人类在定位时的行为，作者开发了CVFT模块，用来缩小aerial-level和ground-level这两个视角图片之间的域差异。

总体来说，本论文的contributions如下：

一个SOTA的Cross-View Geo-localization的方法，Cross-View Feature Transport Module（CVFT）

1.2 Methodology

1.2.1 Feature Extraction

本论文在这里也是用的vgg16去提取图像特征图，不过由于vgg16最后输出的通道数为512，CVFT在通道数较大的时候计算量较大，所以在backbone的最后加入了一个Trans_CNN将512通道减少为64通道。

1.2.2 Optimal Feature Transport

在这里插入图片描述

作者将传统的Opimal Transport扩展到本领域，第一步就是要生成初始的损失矩阵C（Cost Matrix）。不过作者在论文之中并没有详细地解释如何生成初始的损失矩阵C，只是提到了利用回归的方式生成。按照博主的理解，损失矩阵C的生产回归方式如下：

$f (g) @ C - > f (a)$

其中 $f(g)∈R^{c \times h \times w}$ 地面视角经过backbone后提取的feature map， $C∈R^{w \times w}$ ， $f(a)∈R^{c \times h \times w}$ ， $@$ 是逐通道的矩阵乘法。

在得到初始的损失矩阵C之后，作者使用了Sinkhorn-Knopp algorithm生成 feature transport plans P。步骤如下：

扫描二维码关注公众号，回复： 14854874 查看本文章

$e^{-\lambda C} \tag{1}$

$N^r_{i,j} = \frac{c'_{i,j}}{\sum^N_{k=1}c'_{i,k}}, N^c_{i,j} = \frac{c'_{i,j}}{\sum^N_{k=1}c'_{k,j}} \tag{2}$

$S^m(C') = \begin{cases} C', m=0 \\ N^c(N^r(S^{m-1}(C'))), otherwise \end{cases} \tag{3}$
其中 $N^c, N^r$ 就是对列，行进行归一化。当迭代收敛之后，我们得到 $P^∗ = S^m(C')$ 。

最后一步就是利用 $P^∗$ 去转移Feature：
$f^i(a) = n_aP^{*}f^i(g), \ f^i(g) = n_gP^{*T}f^i(a), \ i=1,\dots,c \tag{4}$

其中， $n_a$ 代表空视每个通道feature的数目, $n_g$ 代表地面视角每个通道feature的数目。

2.Revisiting Street-to-Aerial View Image Geo-localization and Orientation Estimation

WACV2021（大约CCF的c类水平），文章质量不高，所以分析写的比较简略

2.1 Thinkings

本论文全篇的立足点在于关注了图像方位对齐信息对于匹配精度的影响，并提出了一种自动对齐方向的方法。之前的SOTA的方法使用的是已经进行朝向对齐的数据库CVUSA，他们的方法也就自然而然地假设街景视角与空域视角方向是对齐的，所以本论文作者认为这些方法并不能称为SOTA的方法。而像CVMNet这些方法就没有假设图像朝向信息是对齐的，而是通过直接利用网络将两种图像编码为一维的向量再进行匹配。所以作者这里所说的本论文取得了SOTA的性能是指在无信息对齐这种先验知识的情况下取得的。

总体而言，本论文的contributions如下：

做了大量实验深度验证了图像朝向信息对于地空视角匹配问题的重要性
通过对metric learning techniques的改进，即引入了Binomial Loss和Global Mining Strategy去提升匹配精确度
设计了一种自动估计朝向信息的方法，以提升网络匹配性能

2.2 Methodology

2.2.1 Alignment Setting

为了让大家更加清楚地明白被以前方法所忽略的朝向信息对于匹配精度的影响，作者做了四组对照试验结果如下：
在这里插入图片描述
从上表就可以清晰地看出，训练时对齐与验证时对齐r@1能达到60.1%，而一旦验证集加入旋转之后精度就下降到了13.5%，而如果在训练的时候加入旋转网络模型虽然精度有所下降，但是对测试集中旋转图像拥有更好的泛化能力。

2.2.2 Baseline

Baseline我这里就不多说了，直接上图：
在这里插入图片描述

2.2.3 Metric Learning

作者通过引入了两种Metric Learning的技术，即Binomial Loss与 Global Mining Strategy去提升网络匹配性能。

首先我们来看Binomial Loss，而为了更好地了解到Binomial Loss，我们就先需要知道以前的Weighted Soft-margin Ranking Loss到底哪里有问题，其公式如下：
$\frac{1}{N}\sum^{N}_{i=1} \sigma(\alpha(d^p_i - d^n_i)) ,\quad \alpha>0 \tag{1}$
在WS Loss中，负样本距离与正样本距离共享一个权重 $\alpha$ ，但是在Geo-localization的匹配问题之中，正负样本并不均衡，所以作者引入了在Re-ID领域中的Binomial Loss，公式如下：
$\frac{1}{N_p}\sum^{N_p} \sigma(-\alpha(s^p_i - m)) + \frac{1}{N_n}\sum^{N_n} \sigma(\alpha(s^n_i - m)) \tag{2}$
其中， $s^p, s^n$ 代表正负样本的相似度，m代表相似度的margin超参数。

2.2.4 Global Mining Strategy

在一个batch之中由于设备限制，作者的batch_size为12，也就是说在一个batch之中的negative samples并不是很多，随着网络模型的不断学习，很容易区别一个batch之中的negative samples，让其对于loss的贡献趋近为0。作者为了能够较好地找到全局的hardest negative samples，便采用了FIFO（First In First Out）的队列去存储负样本。

2.2.5 Orientation Estimation Approach

在这里插入图片描述
这里估计朝向的方法与CVPR2020的那篇论文比较类似，都是采用圆周卷积，将有最大信号的地方作为对齐角。作者这里为了加速还利用了核函数的性质，即傅里叶变换的乘积等于卷积的傅里叶变换。

Geo-localiztion论文阅读list7