【新无人机数据集】从行人重识别到无人机目标定位

论文题目：University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization
论文地址：https://arxiv.org/abs/2002.12186
代码地址：https://github.com/layumi/University1652-Baseline
数据集下载：填写 Request 发送到 [email protected]

简介（与行人重识别的关系）：

随着无人机的发展，无人机视角的目标定位是一个基本的任务，透过无人机视角图像与卫星图像相结合，来判断目标建筑的位置。
主要难点与行人重识别任务一致，为跨视角的图像匹配。在行人重识别任务中为跨摄像头匹配，而在无人机定位任务中为垂直方向的视角匹配（街景<-> 无人机 <-> 卫星）
行人重识别目前发展得比较好，数据集也被大家刷很高；而geo-localization这个任务才刚刚开始，匹配难度较高，做的空间还比较大。
行人重识别在隐私政策上有一些考虑，采集了人体的生物信息；而无人机的建筑定位相对科研伦理/隐私上的问题比较小。

主要任务描述：

任务1 - 无人机视角目标定位 (Drone-> Satellite) ：给定一张无人机视角的图片或者视频，这个任务是去找最相似的卫星图，卫星图往往有gps所以就可以对无人机中的目标定位。
任务2 - 无人机导航 (Satellite->Drone)：给定一张卫星视角的图，无人机尝试去找他飞过的地方（无人机视角的图）。如果找到就按照飞行历史，再飞回去，完成一个导航的操作。

数据采集：

我们利用了wiki 来找到了 72所大学的建筑名称，去除其中的广场，campus，以及一些google map上找不到的地点。下图展示了前100个building名称（https://en.wikipedia.org/wiki/Category:Buildings_and_structures_by_university_or_college）
我们利用google earth去模拟无人机视角的图像，如下面这个视频，采用一个螺旋形的方式接近建筑

同时对于每个建筑，我们还收集了卫星图，和google map的街景图。
之前的数据集往往只收集地面和卫星的image pair。我们则提供了无人机视角图像作为中间的媒介，同时无人机可以减少树木的遮挡，更容易与卫星图做匹配。（下表为training set的对比）
我们数据集的统计数据如下：（训练和测试分别是33 和 39所大学，共72所大学，没有overlap）

数据license：

我们按照Google的官方Guideline(https://www.google.com/permissions/geoguidelines/)进行research的release
同时也依照之前的一些项目如 Tokyo 24/7 和 CVUSA等数据集采用学校邮箱的方式来发布数据。

基准测试：

主要采用了我之前文章的instance loss，这篇文章是2017年11月放的，最近中了ACM TOMM 2020 用来做图文互搜的，大家有兴趣可以康康，可以用来分类几万类。用CNN分100,000类图像(https://zhuanlan.zhihu.com/p/33163432)
主要思想就是把最后分类层的weight 共享，但是前面的特征提取网络还是各归各的。
pytorch 代码在 https://github.com/layumi/University1652-Baseline/blob/master/model.py#L230-L253 前面model可以不一样，最后classifier都用同一个。
提供一个baseline，一方面来验证数据集的有效性，一方面给大家提供一个基础的code，方便大家来修改。

实验结果：

实验结果分几个方面验证：

无人机视角是不是比街景定位更好，因为遮挡物更少，同时，无人机还有一个优势就是能拍到屋顶。实验验证了这一点。
我们学到的特征是不是比general的特征从大数据集中学到的好。
定性结果：（左边无人机目标定位；右边无人机导航）
我们的模型能不能拿去在真实的无人机视频中运用呢？
我们分了两个实验，真实无人机图像搜我们模拟无人机图像：

和真实无人机图像搜卫星图：

可以看到还是很work的。

对比几个常用baseline，包括contrastive loss， triplet loss等：
Instance loss 在其他数据集上（都用VGG16）：
迁移到传统小的图像检索数据集：

其中Fs是学卫星图+无人机图的子网络， Fg是地面图的子网络。我们猜想，Fs学的是垂直方面的变化，Fg学的还是水平方向的变化，所以针对传统建筑数据集，地面上拍摄的，还是地面的网络Fg更好一些。

最后我们提供了一些数据集中的样本，大家可以点开看看～
代码地址：https://github.com/layumi/University1652-Baseline

【探索无人机图像】

【探索卫星图】

【探索街景图】

感谢大家读完，欢迎讨论～～

【新无人机数据集】从 行人重识别 到 无人机目标定位