Distractor aware of Siamese Networks for visual object tracking 论文学习

论文阅读总结
Translation

论文阅读总结

参考学习资料
ECCV视觉目标跟踪之DaSiamRPN
DASiamRPN阅读笔记：Distractor-aware Siamese Networks for Visual Object Tracking
github源码
 深度学习中的目标追踪概述（VOT in DeepLearning）
阅读前疑问
（1）DaSiamRPN中detection score是如何检测出目标丢失的？
由于可感知干扰物机制的训练和推断过程可以获得高质量的检测得分，可以利用检测得分来指示追踪结果的质量。下图可以看出，当追踪失败（目标出视野、全遮挡）时，检测得分会降到接近于零。据此，设置阈值来指示目标的状态：当检测得分下穿过0.8时，指示目标不在搜索区域；当检测得分上穿0.95时，指示目标出现在搜索区域。
需要注意的是，使用这种检测得分来指示目标在不在搜索区域中，前提是得到高质量的检测得分，图中给出的SiamRPN的检测得分便不能用于指示。

（2）response heatmaps是如何可视化的？
Summary
DaSiamRPN其实没有从修改网络的结构出发进行改进，它是从训练过程中的样本不均衡（正例类别不充足、负例样本缺乏语义）这个角度入手，提出一些有效地数据增强策略（利用视频检测数据集扩充正例对的类别多样性，利用检测数据集扩充同类负例对和不同类别的负例对）；为了抑制目标之外的语义目标（干扰）的影响，它提出了一种可感知干扰物的增强学习方法，实质是在得分图中把其他语义目标的“相似度”消弱而得到新的得分图，并且能够以一定的学习率修改目标模板；为了应用于长时追踪，解决长时追踪过程中经常会出现的目标出视野和全遮挡问题，提出了一种local-to-gobal的搜索策略，实质是就是在利用得分图检测到目标消失时，扩大搜索区域的方法，这和人在找丢失目标的过程也很相似。
Research Objective
论文专注与学习可识别干扰物的孪生网络，用于精确的长时追踪。
Problem Statement
大多数孪生追踪方法的特征只能判别前景和非语义的背景。而语义背景被视为一种干扰物，影响了孪生追踪器的鲁棒性。
Method(s)
（1）训练样本均衡：在离线训练阶段，引入了一种有效的训练数据生成策略，控制数据分布，使模型的训练集中于语义干扰项。
（2）抗相似干扰，修改响应图得分的计算方法：在推断测试的过程中，设计了一种新的可识别干扰物模块来进行增量学习，能有效地将通用嵌入变换到当前视频域。
（3）扩大搜索范围：引入一种简单而有效local-to-global的搜索区域策略，能够适用于长期追踪。
Evaluation
作者分别在VOT竞赛数据集VOT上、OTB数据集、长时无人机视频数据集UAV20L和短时无人机视频数据集UAV123上进行测试，并与最先进的方法进行比较，得出了DaSiamRPN在这几类公开数据集上都取得了新的state-of-the-art。
需要注意的是之前的SiamRPN只是以可以与当时的SOTA相比的精度，但是以极快的速度取得优势的。而DaSiamRPN仍然保持了SiamRPN的速度，并且在大部分精度指标上都取得了新高。
Conclusion
（1）提出了一种可识别干扰物的孪生追踪方法DaSiamRPN，在短时和长时视觉追踪基准的综合实验中都获得了最先进的精度，并且速度远超过实时标准。
（2）在离线训练的过程中，提出了一种可识别干扰物的特征学习方案，能显著提高网络的判别能力。
（3）在推断过程中，设计了一种新的可识别干扰物的模块，可以将通用嵌入空间有效应用到当前视频域中。
（4）引用了一种简单有效的局部-全局搜索策略，将DaSiamRPN扩展到长期追踪应用中。
Notes
- （1）商汤（SenseTime）是个什么样的公司？
- （2）王强（Qiang Wang），中科院自动化所，王强他们组的情况？
- （3）理一理王强组他们在孪生追踪方面的研究？

Translation

Abstract

最近，孪生网络因其在速度和准确性的平衡而受到视觉追踪社区的关注。但是，大多数孪生追踪方法中使用的特征只能将前景与非语义背景区分开。语义背景始终被视为干扰因素，这阻碍了孪生追踪器的鲁棒性。在本文中，我们专注于学习用于精确的长时追踪的可识别干扰物的孪生网络。我们观察到训练数据的不平衡分布使学习到的特征具有较弱的判别性。在离线训练阶段，我们引入了一种有效的采样策略来控制数据分布并使模型集中于语义干扰项。在推断测试过程中，设计了一种新颖的可识别干扰物模块来进行增量学习，该模块可以有效地将常规embedding变换至当前视频域。此外，我们通过引入一种简单而有效的局部到全局搜索区域策略，扩展了用于长期追踪的方法。在基准测试上的大量实验表明，我们的方法明显优于最新技术，在VOT2016数据集中产生了9.6%的相对增益，在UAV20L数据集上产生了35.9%的相对增益。我们提出的追踪器在短时追踪基准上的性能为160FPS，在长时追踪基准上的性能为110FPS。

1 Introduction

视觉目标跟踪会自动在变化的视频序列中定位指定目标，这是许多计算机视觉应用（如视觉分析，自动驾驶和姿势估计）中的一个基本问题。追踪的核心问题是如何在具有遮挡、超出视野、变形、背景混乱和其他变化的挑战性场景中准确有效地检测和定位目标[38]。
最近，遵循相似性比较策略进行追踪的孪生网络由于其良好的性能而在视觉追踪社区中引起了极大的关注[31、8、2、36、33、7、37、16]。 SINT [31]，GOTURN [8]，SiamFC [2]和RASNet [36]学习先验的深度Siamese相似性函数并以运行时固定的方式使用相似性模板。 CFNet [33]和DSiam [7]可以分别通过运行平均值模板和快速迁移学习模块在线更新追踪模型。 SiamRPN [16]在Siamese网络之后引入了区域提议网络模块，从而将追踪公式化为one-shot detection 任务。
尽管这些跟踪方法获得了平衡的准确性和速度，
尽管这些跟踪方法获得了准确性和速度上的平衡，但仍应解决3个问题：首先，大多数孪生追踪方法中使用的特征只能将前景与非语义背景区分开。语义背景始终被视为干扰因素（distractor），并且当背景混乱时不能保证性能。其次，大多数孪生追踪器无法更新模型[31、8、2、36、16]。尽管它们的简单性和固定模型的做法可以加快速度，但这些方法失去了在线更新外观模型的能力，而这对于解决追踪方案中的剧烈外观变化通常至关重要。第三，最近的孪生追踪器采用了本地搜索策略，无法应对完全遮挡和目标出视野（out-of-view）的挑战。
在本文中，我们探索学习对干扰物敏感的孪生区域提议网络（DaSiamRPN），以进行准确的长时追踪。 SiamFC使用加权损失函数来消除正例和负例的类别不平衡。但是，由于训练程序仍由容易分类的背景样本主导，因此效率低下。在本文中，我们发现训练数据中非语义背景和语义干扰因素的不平衡是表征学习的主要障碍。如图1所示，SiamFC上的响应图无法区分人，即使穿着白色衣服的运动员也能与目标人具有高度相似性。高质量的训练数据对于端到端追踪器的学习至关重要。我们得出结论，特征提取网络的质量在很大程度上取决于训练数据的分布。除了从现有的大规模检测数据集中引入正例之外，我们还在训练过程中显式生成了多种语义负例。为了进一步增强判别能力，开发了针对视觉追踪的有效数据增强策略。
在这里插入图片描述
离线训练之后，表征网络能够泛化到大部分类别的目标，这能够使追踪器有可能实现通用目标的追踪。在推断阶段，传统的孪生追踪器只使用最近邻搜索，来匹配正例模板，它在目标外观变化较大和背景混杂的情况下可能表现很差。具体来说，上下文中相似目标（干扰物）的出现使追踪任务变得更难。为了解决个问题，环境上下文和时序信息能够提供关于目标的额外线索，帮助最大化判别能力。本文中，设计了一种新的上下文感知模块，能够有效地转移通用embedding到当前视频域，在推理阶段逐渐捕获目标外观变化。
此外，大多数追踪器专用用于短时场景，这种情况下，目标总是存在的。这些工作关注于数十秒的短时序列，这不能代表实际需求。在长时间追踪中，除了短时追踪中的有挑战性场景，它还面临着严重的目标消失（out-of-view）和全遮挡等额外的挑战。因为孪生追踪网络缺乏判别特征，并且调整局部搜索区域，它们很难处理这些挑战。受益于在DaSiamRPN中学到的干扰物感知特征，我们引入了一个简单但有效的局部—全局搜索区域策略，将提出的方法扩展至长时间追踪应用中。这能显著改善追踪器在目标消失（out-of-view）和全遮挡挑战下的追踪器性能。
我们在广泛的短时和长时追踪基准（ VOT2016 [14]，VOT2017 [12]，OTB2015 [38]，UAV20L和UAV123 [22]）上验证了提出的DaSiamRPN的有效性。在短时VOT2016数据集中，与排名第一的ECO[3]算法相比，DaSiamRPN取得了9.6%的EAO相对提升。在长期的UAV20L数据集上，DaSiamRPN在“曲线下面积”中获得61.7％，比当前性能最佳的跟踪器高35.9％。除了出色的性能外，我们的跟踪器还可以远远超出实时速度：短期数据集为160 FPS，长期数据集为110 FPS。所有这些一致的提升表明，所提出的方法在视觉追踪方面建立了新的state-of-the-art。

1.1 Contributions

这篇论文的贡献可以被总结为以下三个方面：
（1）传统孪生追踪器的特征经过详细的分析。我们发现训练数据中非语义的背景和语义干扰物不平衡是学习的主要障碍。
（2）我们提出了一个新的孪生追踪框架DaSiamRPN，在离线训练过程中学习可识别干扰物的特征，能在在线追踪的推断过程中明显地抑制干扰物的影响。
（3）我们引入了一个简单但有效的局部—全局搜索策略，来将DaSiamRPN用于执行长时追踪，这一搜索策略能够显著的改善追踪器在目标超出视野和全遮挡挑战下的性能。在短时和长时追踪基准上的广泛实验之后，提出的DaSiamRPN框架能够以远超出实时的速度获得目前SOTA的精度。

2 Related Work

Siamese Networks based Tracking. （SINT、SiamFC、RASNet和GOTURN的工作说明能够利用孪生网络学习相似度，超实时地完成追踪任务；CFNet和FlowTrack的工作为在线更新追踪模型提供了解决方案；SiamRPN为使用大规模图像对端到端地离线训练追踪器提供了解决方案）孪生追踪器遵循相似度比较策略进行追踪。先驱的工作是SINT[31]，它简单地搜索和初始帧中给定模板最相似的候选图像，使用一个可以离线学习但运行时固定的孪生先验相似度函数。后续工作中，Bertinetto 等学者[2] 提出了SiamFC，来估计两帧之间逐区域的相似度度量。RASNet [36]通过残差注意力网络学习注意力机制来改进这种度量。不同于SiamFC和RASNet，在GOTURN追踪器中[8]，使用深度回归网络预测后续帧之间的运动。由于没有在线学习，这三个追踪器能够在GPU上运行86FPS, 83FPS和100FPS。CFNet[33]将相关滤波器解释为孪生追踪框架中的一个可区分层，从而实现了端到端的表示学习。但是，与SiamFC相比，性能提升有限。FlowTrack[40]在孪生框架中运用运动信息，改进特征表示和追踪精度。值得注意的是，CFNet和FlowTrack能够有效地在线更新追踪模型。最近，SiamRPN[16]将追踪问题形式化为one-shot local detection任务，这是通过在孪生网络后引入RPN来实现的，SiamRPN能够离线的在大规模图像对上端到端地进行训练。
Features for Tracking. （用于追踪的视觉特征发展经历了，单独的人工特征->离线训练特征->加上时间约束的特征->特征融入追踪过程中学习，四个阶段）视觉特征在计算机视觉任务包括追踪任务中扮演着至关重要的角色。Possegger 等学者[26]提出了一种干扰物感知模型术语来抑制视觉上分散注意力的区域，而其框架使用的颜色直方图特征不如深层特征鲁棒。DLT[35]是使用多层自动编码器网络的开创性深度学习追踪器，特征在80M Tiny Image dataset[32]的部分数据集上以无监督的方式训练。Wang等学者[34]在一个视频仓库上学习一个两层神经网络，在时间上的缓慢约束被强加给特征学习。DeepTrack[17]从二值样本上学习一个两层的CNN分类器，不需要预训练程序（采样机制从不同的时间分布随机生成正样本和负样本，这些样本是通过考虑时间关系和标签噪声而生成的。）。 UCT[39]将特征学习和追踪过程形式化为一个统一的框架，这使学习的特征与追踪过程紧密相关。
Long-term Tracking. （近期的长时追踪多以将追踪器和检测器相合的方法为主。不同的追踪器和不同的检测器进行组合，可以得到不同的方法。）传统的长时间追踪框架能够被分为两组：早期的方法将追踪视为使用几何模型匹配的局部关键点描述符[25，24，21]，而最近的方法通过将短时追踪器和检测器结合来进行长时间的追踪。后者的开创性工作是TLD[10]，它提出一种media flow tracker和基于模板的检测器，二者并行运行。Ma等学者[20]提出了一种KCF追踪器和随机分类器的结合作为检测器，来纠正追踪器。相似地，MUSTer[9]是一个长时追踪框架，它结合KCF追踪器和基于SIFT的检测器，能够用于检测遮挡。Fan和Ling等学者[6]结合了DSST追踪器[4]和一个CNN检测器[31]，能够验证并且有可能纠正短期追踪器的提议。
在这里插入图片描述

3 Distractor-aware Siamese Networks

3.1 Features and Drawbacks in Traditional Siamese Networks

在具体的讨论我们提出的框架之前，我们首先回顾基于常规孪生神经网络追踪器的特征[2,16]。孪生追踪器以度量学习为核心。目标是学习一个嵌入空间，使不同对象之间的类间度量最大，并使同一对象的类内度量最小。孪生追踪器之所以能够流程和成功的关键贡献是它们在精度和速度上的平衡。
图1给出了SiamFC和SiamRPN的响应图可视化。可以看出，对于目标而言，背景差异较大的目标也能获得高分，甚至一些无关的目标也能获得高分。在SiamFC中获得的表示形式通常对训练数据的类别进行区分学习。在SiamFC和SiamRPN中，成对的训练数据来自同一视频的不同帧，并且对于每个搜索区域，非语义的背景占多数，而语义实体和干扰项占比较少。这种不平衡的分布使训练的模型很难学习到实例级的表示，转而学习到了前景（有语义的目标）和背景（无语义的背景）之间的不同。
在推断阶段，使用最近邻策略在搜索区域中搜索最相似的目标，而忽略了第一帧中标注的背景信息。追踪序列中的背景信息能够有效地增强判别能力，正如图1e中所示的。
为了解决这些问题，我们提出在离线训练过程中，主动地生成更多的语义图像对，并且在在线推断过程中明确抑制干扰目标。

3.2 Distractor-aware Training

高质量的训练数据对视觉追踪任务中端到端的表示学习的成功至关重要。我们引入一系列的策略来改进特征的泛化能力，并且消除训练数据的不平衡分布的影响。
不同类别的正例图像对可以提高泛化能力。 原始的SiamFC在ILSVRC视频检测数据集上进行训练，这一数据集只包括大约仅有4000个逐帧标注的视频[28]。最近，SiamRPN[16]探索使用稀疏标注的Youtube-BB[27]视频，它包括超过200，000的视频，以每30帧进行标注。在这两个方法中，训练数据的目标对来源于同一视频的不同帧。但是，这些视频检测数据集只包括非常少的类别（例如，VID[28]包含20个类别，Youtube-BB[27]包含30个类别），这样少的类别数量对于训练具有高质量和泛化能力的孪生网络特征是不充分的。此外，当SiamRPN中的bbox回归分支遇到新类别时，可能会得到错误的预测。由于视频标注既费时又昂贵，在本文中，我们通过引入大规模ImageNet检测[28]和COCO检测[18]数据集来大大扩展正例图像对的类别。 正如图2（a）中展示的，通过数据增广技术（translation, resize, grayscalse等），检测数据集中的表态图片能够用于产生训练用的图像对。正例图像对的多样性能够改善追踪器的判别能力和回归精度。
在这里插入图片描述
语义负例图像对可以改善判别能力。 我们将SiamFC[2]和SiamRPN[16]中的较差区分性归因于两个类型的训练数据分布不均衡。第一个不均衡是缺少语义负例图像对。尽管SiamFC和SiamRPN的训练数据中背景占据了很大部分，但是大部分负例是非语义的（不是真的目标，只是背景），而且它们可以很简单地被分类。这也就是说，SiamFC和SiamRPN学习的是前景和背景的不同，而且语义目标之间损失被大量容易产生的负对所淹没。另一个不均衡是类内的干扰因素，它们在追踪的过程中通常是一个难例负样本（也就是说同一类别的目标，比如我要追踪一个人时出现了另一个人）。在本文中，语义负对也被加入到了训练过程中。构建的语义负对由同一类别的标注目标和不同类别的标注目标构成。来自不同类别的负对能够帮助追踪器在目标超出视野和完全遮挡等挑战情况下避免漂移到任意其他目标上；而来自相同类别的负对使追踪器专注于细粒度的表示。负例图像对显示在图2(b)和图2©中。
自定义的用于视觉目标追踪的有效数据增强。 为了充分利用孪生网络的潜力，我们定制了几种数据增强策略进行训练。除了常见的平移、比例变化和光照变化之外，我们观察到运动模式可以由网络中的浅层轻松的进行建模。我们在数据增强中明确地引入运动模糊。

3.3 Distractor-aware Incremental Learning

最后一节中的训练策略可以显著提高离线训练过程中的判别能力。但是，它仍然很难区分类似图3a中的具有相似特征的两个目标。SiamFC和SiamRPN使用一个consine窗口来抑制干扰物（SiamFC里好像没有）。在这种情况下，当目标的运动混乱时，无法保证追踪性能。目前大部分孪生追踪方法在遇到快速运动和背景混乱时的性能比较差。总之，潜在的缺陷主要是由于通用表示域和特征目标域之间的未对齐。 （大概就是在训练过程中学习到的通用相似度模型与特定视频中的相似度计算还是有差别的）在这一节中，我们提出了一个干扰物感知模块，能有效地将通用表示形式转移到视频域。
孪生追踪器学习一个相似度度量 $f (z, x)$ 来在嵌入空间 $\varphi$ 中比较模板图像 $z$ 和候选搜索图像 $x$ ：
$x)=\varphi(z) \star \varphi(x)+b \cdot \mathbb{1}$
其中， $\star$ 表示两个特征图之间的相关操作， $\cdot \mathbb{1}$ 表示每个位置上都相等的偏差。和模板图像最相似的目标会被选择为当前的目标。
为了充分利用标注信息，我们将上下文中的难例负样本整合到相似性指标中。在DaSiamRPN中，使用非极大值抑制（NMS）来选择每一帧中可能的干扰物 $d_i$ ，然后搜集一个干扰物集合 $\mathcal{D}:=\left\{\forall d_{i} \in \mathcal{D}, f\left(z, d_{i}\right)>h \cap d_{i} \neq z_{t}\right\}$ ，其中 $h$ 是预定义的阈值， $z_t$ 是在第 $t$ 帧中选择的目标，集合大小 $|\mathcal{D}|=n$ 。具体而言，我们首先在每帧中获得 $17\times 17 \times 5$ 个提议，然后使用NMS减少冗余的候选框。具有最高得分的提议会被选择作为目标 $z_t$ 。对于剩余的目标，得分比阈值大的提议会被选择作为干扰物。
之后，我们引入一种新的可感知干扰因素的目标函数，来对与模板具有前 $k$ 个相似性的提议 $\mathcal{P}$ 进行重新排序。最终选择的目标表示为 $q$ （在原先相似度图中，把重新计算的干扰物的相似度减掉，起了一个抑制的作用。） : $q=\underset{p_{k} \in \mathcal{P}}{\operatorname{argmax}} f\left(z, p_{k}\right)-\frac{\hat{\alpha} \sum_{i=1}^{n} \alpha_{i} f\left(d_{i}, p_{k}\right)}{\sum_{i=1}^{n} \alpha_{i}}$ 权重因子 $\hat{\alpha}$ 控制干扰物学习的影响，权重因子 $\alpha{_i}$ 用于控制每一个干扰物 $d_i$ 的影响。需要注意的是，通过直接计算，计算复杂度和内在使用量增加了 $n$ 倍。由于上述等式中相关运动是线性运算符，因此我们利用此属性来加快可感知干扰物目标函数的计算 (就是把 $f$ 打开了，然后把 $\varphi$ 提出来) ：
$q=\underset{p_{k} \in \mathcal{P}}{\operatorname{argmax}} \left( \varphi(z)-\frac{\hat{\alpha} \sum_{i=1}^{n} \alpha_{i} \varphi(d_i)}{\sum_{i=1}^{n} \alpha_{i}} \right)\star \varphi(p_k)$ 这能够使追踪器以与SiamRPN相当的速度运行。这一关联法则也启发我们以学习率 $\beta_t$ 逐步学习目标模板和干扰物模板:
$q_{T+1}=\underset{p_{k} \in \mathcal{P}}{\operatorname{argmax}}\left(\frac{\sum_{t=1}^{T} \beta_{t} \varphi\left(z_{t}\right)}{\sum_{t=1}^{T} \beta_{t}}-\frac{\sum_{t=1}^{T} \beta_{t} \hat{\alpha} \sum_{i=1}^{n} \alpha_{i} \varphi\left(d_{i, t}\right)}{\sum_{t=1}^{T} \beta_{t} \sum_{i=1}^{n} \alpha_{i}}\right) \star \varphi\left(p_{k}\right)$ 这个可感知干扰物的追踪器将现有的相似度度量（通用的）调整为新域（特征域）中的相似度度量。权重因子 $\alpha_i$ 可以看作是具有稀疏与正则化的对偶变量，而模板和干扰物可以看作是相关滤波器中的正样本和负样本。实际上，在我们的框架中使用的是在线分类器。因此，我们采用的分类器有望比通用的分类器更好。

3.4 DaSiamRPN for Long-term Tracking

在这里插入图片描述
在本节中，DaSiamRPN框架被扩展于长时追踪。除了在短时追踪里的挑战场景，长时追踪还存在严重的目标出视野和全遮挡挑战，如图4中展示的。当目标重新出现时，短时追踪（SiamRPN）中的搜索区域无法重新覆盖目标，因此无法在后续帧中追踪。我们提出一种简单但有效的短时追踪阶段和追踪失败的切换方法。在失败的情况下，设计一种从局部到全局的迭代搜索策略以重新检测目标。
为了实现转换，我们需要识别追踪失败的开始和结束。由于干扰物感知的训练和推理可以得到高质量的检测得分，它可以用来指示追踪结果的质量。图4显示了SiamRPN和DaSiamRPN中检测得分和相应的追踪框重叠。SiamRPN的检测得分不具有指示性，即使目标在视野之外和完全遮挡的情况下，检测得分也可能很高。这也就是说，SiamRPN倾向于在这些挑战中找到任意目标，这会导致追踪漂移。在DaSiamRPN中，检测分数可以指示追踪阶段的状态。
在追踪失败的情况下，我们通过局部到全局的策略逐渐增加搜索范围。具体来说，当检测分数指示追踪失败时，搜索区域的大小以恒定的步长迭代增长。如图4所示，局部-全局搜索区域覆盖了目标，又恢复了正常追踪。值得注意的是，我们的追踪器使用边界框回归来检测目标，所以，不用使用耗时的金字塔策略。在实验过程中，提出的DaSiamRPN能够以110FPS在长时追踪数据集上运行。

4 Experiments

在广泛的具有挑战性的追踪数据集上进行了实验，包括VOT2015 [13]，VOT2016 [14]和VOT2017 [12]，每个都有60个视频，UAV20L [22]有20个长期视频，UAV123 [22]有123个视频以及OTB2015 [38]有100个视频。所有追踪结果均由官方实施提供，以确保公平比较。

4.1 Experimental Details

如SiamRPN [16]中所述，使用经过ImageNet [28]预训练的经过修改的AlexNet [15]。前三个卷积层的参数是固定的，只微调后两个卷积层。总共执行50次训练，学习率在对数空间从 $10^{-2}$ 下降到 $10^{-4}$ 。我们从VID[28]和Youtube-BB[27]上提取图像对，两帧之间的间距小于100，然后执行3.2节中所述的裁剪程序。在ImageNet检测[28]和COCO[18]检测数据集上，用于训练的图像对通过从表态图片上增强得到。为了处理基准中的灰度图片， $25\%$ 的图像对在训练期间被转换为灰度图片。变换是在12个像素内随机进行的，随机调整大小的范围在0.85到1.15。
在推理阶段，等式中的干扰因子 $\hat{\alpha}$ 设置为0.5，每个干扰物的 $\alpha_i$ 设置为1，等式中的增量学习率 $\beta_t$ 设置为 $\sum_{i=0}^{t-1}\left(\frac{\eta}{1-\eta}\right)^{i}$ ，其中 $\eta = 0.01$ 。在长时追踪中，我们发现进行一步local-to-global迭代是充分的。具体而言，短时追踪中的搜索区域大小设为255，失败情况下搜索区域大小设置为767。进入和离开追踪失败情形的阈值分别为0.8和0.95。我们的实验是在装有Intel i7、48G RAM和NVIDIA TITAN X的PC上使用PyTorch实施的。建议的追踪器在短期基准上的性能为160 FPS，在长期基准上的性能为110 FPS。

4.2 State-of-the-art Comparisons on VOT Datasets

在本节中，使用了最新版本的视觉目标追踪工具包（vot2017challenge）。这个工具包应用了一个重置的方法。每当检测到故障（与真值的零重叠）时，追踪器就会在故障五帧后初始化。根据准确性（A），鲁棒性（R）和预期平均重叠（EAO）来衡量性能。此外，VOT2017还引入了实时性实验。
在VOT2016上评估的EAO曲线如图5a所示，并与其他70个最新的跟踪器进行了比较。我们在VOT2016上的基准追踪器SiamRPN的EAO是0.3411，已经超过了大多数最新技术。但是，与排名靠前的追踪器ECO（0.375）相比，仍然存在差距，ECO改善了多级特征图上的连续卷积运算符。最引人注目的是，拟议的DaSiamRPN的EAO为0.411，比最新技术高出9.6%。此外，我们的追踪器以160FPS的最新速度运行，这比C-COT快500倍，比ECO快20倍。
在这里插入图片描述

对于VOT2017的评估，图5b报告了我们针对51个其他最新跟踪器的EAO评分结果。DaSiamRPN的EAO得分为0.326，排名第一。在排名前5位的跟踪器中，CFWCR，CFCF，ECO和Gnet应用连续卷积算子作为基准方法。表现最好的LSART[30]将目标分解为图像块，然后将图像块相似性的加权组合应用于核化岭回归。然而我们的方法在概念上更简单，功能更强大，也很容易接着做下去。
图5b还显示了实时实验中用红点表示的EAO值。我们的追踪器显然是性能最高的，实时EAO为0.326，并且相对于最新的最新实时追踪器CSRDCF ++优于53.8％。
表1显示了VOT2015，VOT2016和VOT2017的准确性（A）和鲁棒性（R）以及预期的平均重叠（EAO）。基线方法SiamRPN可以每秒处理200帧，同时仍能获得与最新技术相当的性能。我们发现，SiamRPN的性能提升主要归因于其精确的多锚点回归机制。我们提出了可识别干扰物的模块，以提高鲁棒性，从而使我们的追踪器更加和谐。结果，我们的方法在三个基准上的EAO分别为0.446、0.411和0.326，大大优于所有现有追踪器。我们相信，不断的提升表明我们的方法通过训练过程和在线推理都对追踪性能提升有真正的贡献。

4.3 State-of-the-art Comparisons on UAV Datasets

无人机[22]的视频是使用低空无人机拍摄的。数据集包含一个长期评估子集UAV20L和一个短期评估子集UAV123。评估基于两个指标：精确度图和成功度图。
UAV20L上的结果。UAV20L是一个长时追踪基准，它包含20个平均长度在2934帧的视频序列。除了在短时追踪中的挑战，目标出视野和全遮挡等引入了额外的挑战。在这个实验中，将所提出的方法与[22]中最新的追踪进行了比较。此外，ECO [3]（最新的短期跟踪器），PTAV [6]（最新的长期跟踪器），SiamRPN [16]（基线），SiamFC [2] 和CFNet [33]（代表性的孪生跟踪器）被添加用于比较。
结果包括成功图和精度图，如图6所示。它清楚地表明，以DaSiamRPN表示的我们的算法在这两个方面均明显优于最新的跟踪器。在成功图中，我们的方法获得的AUC得分为0.617，大大优于最新的短期追踪器SiamRPN [16]和ECO [3]。改进范围分别是相对35.9％和41.8％。与有资格进行长期跟踪的PTAV [6]，MUSTer [9]和TLD [10]相比，拟议的DaSiamRPN相对于这些跟踪器的性能分别高45.8％，87.5％和213.2％。在精度图中，我们的方法获得的得分为0.838，比最先进的长期追踪器（PTAV[6]）高出34.3%，比短期追踪器（SiamRPN[16]）相对高出35.8%。DaSiamRPN在此长期跟踪数据集中的出色性能可归因于干扰因素感知功能和局部到全局搜索策略。
为了进行详细的性能分析，我们还报告了UAV20L中各种挑战属性的结果，即完全遮挡，视野外，背景杂波和部分遮挡。图7展示了我们的跟踪器可以有效地应对这些挑战性情况，而其他跟踪器则获得较低的分数。特别是，在完全遮挡和背景杂波属性下，拟议的DaSiamRPN相对于SiamRPN [16]分别提高了153.1％和393.2％。
在这里插入图片描述
UAV123上的结果。UAV123数据集包括123个平均长度在915帧的视频序列。除了[22]中的最新追踪器外，还添加了ECO [3]，PTAV [6]，SiamRPN [16]，SiamFC [2]，CFNet [33]进行比较。图6说明了比较跟踪器的精度和成功图。拟议的DaSiamRPN方法在成功率和精确度得分方面均优于其他所有跟踪器。具体来说，我们的方法获得0.586的成功分数，大大超过了SiamRPN（0.527）和ECO（0.525）方法。

4.4 State-of-the-Art Comparisons on OTB Datasets

我们使用众多快速，最先进的跟踪器来评估提出的算法，这些跟踪器包括SiamFC [2]，CFNet [33]，Staple [1]，CSRDCF [19]，BACF [11]，ECO-HC [3]， CREST [29]，MDNet [23]，CCOT [5]，ECO [3]和基线跟踪器SiamRPN [16]。在第一帧中，所有跟踪器都以真值目标状态初始化。表1列出了平均重叠精度（OP）和平均距离精度（DP）。
在实时跟踪器中，SiamFC和CFNet是最新的基于Siamese网络的跟踪器，而精度仍远远落后于具有HOG特征的最新BACF和ECO-HC。拟议的DaSiamRPN跟踪器在准确性和速度上都大大优于所有这些跟踪器。
为了在OTB上进行最先进的比较，经过视觉跟踪数据集训练的MDNet以1 FPS的速度与其他跟踪器相比表现最佳。CCOT和ECO达到了最先进的性能，但是它们的跟踪速度不足以用于实时应用。基线跟踪器SiamRPN获得的OP得分为81.9％，比CCOT的准确性稍低。SiamRPN的瓶颈是其较差的鲁棒性能。由于培训和推理中的干扰物感知机制都专注于提高鲁棒性，因此拟议的DaSiamRPN跟踪器在DP上实现了3.0％的改进，在OTB2015上获得了86.5％的最佳OP评分。

4.5 Ablation Analyses

为了验证算法中每个组件的贡献，我们实现并评估了我们方法的四个变体。分析结果包括VOT2016上的EAO [14]和UAV20L上的AUC [22]。
（注意这个表DaSiamRPN那一列是竖着看的。）如表2所示，SiamRPN是我们的基准算法。在VOT2016中，当在训练中添加检测数据时，EAO标准从0.344增加到0.368。同样，当在训练和推理中采用负例和干扰物感知的学习时，两者的性能都会提高近2％。在UAV20L中，检测数据，训练中的负数对和干扰物感知推理可将性能提高1％-2％。采用长期跟踪模块时，AUC标准从49.8％提高到61.7％。
在这里插入图片描述

5 Conclusions

在本文中，我们提出了一种可识别干扰物的孪生网络框架，以进行准确的长期跟踪。在离线训练过程中，提出了一种可识别干扰物的特征学习方案，该方案可以显着提高网络的判别能力（这主要是一种样本均衡的训练方法）。在推断过程中，设计了一种新颖的可识别干扰物的模块，可将常规嵌入有效地转移到当前视频域（修改目标函数p,q的计算方法）。此外，我们通过引入一种简单而有效的局部到全局搜索策略（扩大搜索范围），扩展了用于长期跟踪的方法。拟议的跟踪器在短期和长期视觉跟踪基准的综合实验中获得了最先进的精度，而整个系统的速度仍远远超过实时要求。

Distractor-aware Siamese Networks for Visual Object Tracking 论文学习