1. Introduction
- 目前的跟踪器可以分为两大类:
1.第一类是基于相关滤波:通过利用循环特性在傅里叶域训练一个回归器,能够在线跟踪并更新滤波器参数。近来一些相关滤波算法通过使用深度特征来提高精度,但在滤波器更新是严重降低了速度。
2.另一类方法是使用非常强大的深度特征,此类方法不更新模型,所以性能没有相关滤波好。
- 本文提出的SiamRPN是离线训练好的基于深度特征的跟踪器,并取得了比目前最先进相关滤波方法更优的性能。SiamRPN由模板分支和检测分支组成,用端到端的方法在大规模的图像对上进行离线训练。不同于标准的RPN,本文使用两个分支的相关特征图来提取候选区域。由于跟踪任务不区分类别,所以作者将模板分支上的目标外观信息编码到RPN特征中来判别前景和背景。
- 贡献可总结为以下三点:
1.提出了孪生区域建议网络,能够利用ILSVRC和Youtube-BB大量的数据进行离线端到端训练。
2.在线跟踪时,将proposed framwork
视为单目标的检测任务,这使得可以不用高耗时的多尺度测试就能精确的候选区域。
3.在VOT2015, VOT2016 and VOT2017的实时比赛中达到了最优性能,并且可达到160FPS,同时具有精度的效率的优势。
2. Related Works
2.1 RPN in detection
- RPN是在Faster R-CNN提出来的,后来Faster R-CNN的变种如FPN利用特征金字塔来提高小目标检测的性能。
2.2 One-shot learning
- 最常见的例子就是人脸检测,只知道一张图片上的信息,用这些信息来匹配出要检测的图片,这就是单样本检测,也可以称之为一次学习。
3. Siamese-RPN framework
- Siamese-RPN由提取特征的Siamese子网络和区域生成的候选区域子网络组成。
3.1 Siamese feature extraction subnetwork
- 网络基于AlexNet
- 该子网络由模板分支和检测分支组成:模板分支将历史帧的目标块作为输入,用
z 表示;检测分支用当前帧的目标块作为输入,用
x 表示。两个网络共享CNN参数,用
φ(z) 和
φ(x) 表示网络输出。
3.2 Region proposal subnetwork
- 该子网络由分类分支和回归分支组成,分类分支输出有
2k 个channels(前景和背景),回归分支有
4k 个channels(
x,y,w,h),其中
k 表示anchors,即每个位置预测框的个数。
- 分类分支使用cross-entropy损失,回归分支使用Faster R-CNN中的smooth
L1 损失。
3.3 Training phase:End-to-end train Siamese-RPN
- sample pairs:从ILSVRC随机间隔帧和Youtube-BB连续帧提取
- Siamese子网络首先在ImageNet上进行预训练,然后用SGD对Siamese-RPN进行端到端训练
- 由于在跟踪任务中相邻帧间的变化不会太大,所以选用的anchors个数比检测任务要少。只选用了一个尺度的5种不同宽高比
[0.33,0.5,1,2,3]
- 正样本:IOU
>0.6,负样本:IOU
<0.3
- 对每个样本对限制最多16个正样本和总共64个样本
4. Tracking as one-shot detection
4.1 Formulation
- 平均损失
L
Wmin=n1i=1∑nL(ζ(φ(xi;W);φ(zi;W)),ℓi)(1) 1.
W 训练的网络权重
2.
φ 表示Siamese子网络
3.
L 表示 RPN子网络
4.
n 表示样本对数
5.
ℓi表示样本标签
4.2 Inference phase:Perform one-shot detection
- 模板分支在初始帧得到的输出作为检测分支的卷积核,然后在整个跟踪过程中固定不变。
4.3 Proposal selection
- 直接丢弃距中心太远的BB,如下图所示,丢弃大于7的BB
- 用余弦窗和尺度变化惩罚来对proposal进行排序,选最好的。余弦窗是为了抑制距离过大的,尺度惩罚是为了抑制尺度大的变化。
- 非极大值抑制(NMS)
5. Experiments
5.1 Implementation details
5.2 Result on VOT2015
5.2 Result on VOT2016
5.4 Result on VOT2017
6. 与baseline–SiamFC对比
- 视觉跟踪领域主流的实时跟踪方法是以SiameseFC为代表的孪生网络结构,Siamese FC网络非常简单,通过相同的网络提取出图像的特征,通过类似卷积的相关操作方法,可以快速的实现模板与搜索区域中的17x17个小图像进行比对,输出的17x17的响应图,相当于每个位置和模板帧的相似度。但SiameseFC有以下缺陷:首先由于没有回归,网络无法预测尺度上的变化,所以只能通过多尺度测试来预测尺度的变化,这里会降低速度。其次,输出的相应图的分辨率比较低,为了得到更高精度的位置,Siamese FC采用插值的方法,把分辨率放大16倍,达到与输入尺寸相近的大小。
- SiameseRPN通过引入物体检测领域的区域推荐网络(RPN),通过网络回归避免多尺度测试,一方面提升了速度,另一方面可以得到更为精准的目标框,更进一步,通过RPN的回归可以直接得到更精确地目标位置,不需要通过插值得到最终的结果。在训练过程中,我们引入了大规模的视频数据集Youtube-BB进行训练,相比较SiameseFC使用的VID数据集,Youtube-BB在视频数量上有大约50倍的提升,这保证了网络能够得到更为充分的训练。
7. 参考
https://blog.csdn.net/fzp95/article/details/80982201