商汤科技 SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks翻译CVPR2019

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_41063476/article/details/87881366

project项目地址:project

终极鲁棒目标跟踪

文章目录

  1. 导言
  2. 相关工作
  3. 具有深度网络的孪生跟踪
    3.1 孪生跟踪网络分析
    3.2 ResNet驱动的孪生跟踪
    3.3 分层聚合
    3.4 深度互相关
  4. 实验结果
    4.1 培训数据集和评估
    4.2 执行细节
    4.3 消融实验
    4.4 与最先进技术的比较
  5. 结论

SiamRPN ++: 在非常深的网络下 Siamese 视觉跟踪的演变

摘 要

   基于孪生网络的跟踪器将跟踪表述为目标模板与搜索区域之间的卷积特征相互关系。然而, 与最新算法相比, 孪生跟踪器仍有一个精度差距, 他们无法利用深度网络的优点, 如 ResNet-50 或更深的算法。在这项工作中, 我们证明了核心原因来自于缺乏严格的平移不变性。通过综合理论分析和实验验证, 我们通过简单而有效的空间感知采样策略打破了这一限制, 成功地训练了一个具有显著性能增益的 ResNet 驱动的 Siamese 跟踪器。此外, 我们还提出了一种新的模型体系结构来执行分层和深度聚合, 这不仅进一步提高了精度, 而且减小了模型的大小。我们进行了广泛的消融研究, 以证明提出的跟踪器的有效性, 该跟踪器在五个大型跟踪基准 (包括 OTB2015、VOT2018、uav123、losot 和 trackingnet) 上获得了目前的最佳结果。我们的模型将被发布, 以方便进一步的研究。

1.导 言

   视觉物体跟踪在过去几十年中受到越来越多的关注, 仍然是一个非常活跃的研究方向。它有一个广泛的应用在各种各样的领域例如视觉监视 [47], 人机互作用 [26] 和增强现实 [48]。虽然最近取得了很大的进展, 但由于照明变化、遮挡和背景杂波等诸多因素, 它仍然被普遍认为是一项非常具有挑战性的任务, 仅举几例 [46]。
   最近, 基于孪生网络的跟踪器 [40, 1, 15, 42, 41, 24, 43, 52, 44] 在社会上引起了广泛的关注。这些 Siamese 跟踪器通过在目标模板中学习到的特征表示与搜索区域之间的相互关系, 将视觉对象跟踪问题绘制为学习一般相似度图。为了保证跟踪效率, 离线学习的 Siamese 相似函数通常在运行时间内固定 [40, 1, 15]。CFNet 跟踪器 [41] 和 DSiam 跟踪器 [11] 分别通过运行平均模板和快速转换模块更新跟踪模型。SiamRPN 跟踪器 [24] 在 Siamese 网络之后引入区域建议网络 [24], 并执行联合分类和回归以进行跟踪。DaSiamRPN 跟踪器 [52] 进一步引入了一个干扰感知模块, 并提高了模型的识别能力。
   虽然上述孪生跟踪器已经获得了出色的跟踪性能, 特别是在均衡的精度和速度, 即使是表现最好的孪生跟踪器, 如 SiampRPN, 精度仍然有一个显著的差距与最新的艺术 [5] 跟踪基准, 如 OTB2015 [46]。我们观察到, 所有这些跟踪器已经建立了他们的网络在架构类似于亚AlexNet [23] 和尝试了几次培训一个孪生跟踪器与更复杂的架构像 ResNet [14], 但没有性能增益。在这一观察的启发下, 我们对现有的孪生跟踪器进行了分析, 发现其核心原因来自于严格平移不变性的破坏。由于目标可能出现在搜索区域中的任何位置, 因此目标模板的学习特征表示应保持空间不变, 我们在理论上进一步发现, 在现代深层体系结构中, 只有AlexNet的零填充变量满足这个空间不变性限制。
   为了克服这一限制,驱动具有更强大的深层架构的孪生跟踪器,通过广泛的实验验证,我们介绍了一个简单的然而有效的采样策略打破了孪生跟踪器的空间不变性限制。我们成功地训练了一个基于 SiamRPN [24] 的跟踪器, 使用 ResNet 作为骨干网, 并获得显著的性能改进。利用 ResNet 体系结构, 提出了一种互相关操作的分层特征加重结构。这有助于跟踪器从多个层次上学到的特征预测相似度映射。通过对孪生网络结构的互相关分析, 我们发现其两个网络分支在参数数量上存在高度不平衡;因此, 我们进一步提出了一种深度可分离的相关结构, 它不仅大大降低了目标模板分支中的参数数, 而且稳定了整个模型的训练过程。此外, 还观察到一个有趣的现象, 即同一类别中的物体在相同的通道上具有较高的响应, 而其余通道的响应则被抑制。正交特性还可以提高跟踪性能。

总之, 这项工作的主要贡献分为以下四个方面:

  • 我们对孪生跟踪器进行了深入的分析, 并证明了在使用深度网络时, 精度的下降来自于严格平移不变性的破坏。
  • 我们提出了一个简单而有效的采样策略, 以打破空间不变性限制, 成功地训练由 ResNet 架构驱动的孪生跟踪器。
  • 我们为互相关联操作提出了一个分层的特征加重的结构, 这有助于跟踪者从多个层次上学习到的特征中,预测相似度映射。
  • 我们提出了一个深度可分离的相关结构, 以增强互相关, 产生多个相似图与不同的语义信息。

   基于上述理论分析和技术贡献, 我们开发了一个高效的视觉跟踪模型, 在跟踪精度方面建立了一个新的最新技术, 同时在 35FPS上高效运行。这个提出的跟踪器, 称为 SiamRPN++, 在五个最大的跟踪基准上持续地获得最好的跟踪结果, 包括 OTB2015 [46], VOT2018 [21], uav123 [31], losot [10], 和 trackingnet [30]。此外, 我们建议使用 MobileNet[18] 主干网络的快速变种, 以保持具有竞争力的性能, 同时以 70 fps 运行。为了便于进一步研究视觉跟踪方向, 我们将发布 SiamRPN ++ 跟踪器的源代码和训练有素的模型。

2. 相关工作

   在本节中, 我们简要介绍了最近的跟踪器, 特别关注基于孪生网络的跟踪器 [40, 1]。此外, 我们还描述了深度结构的最新发展。
   视觉跟踪在过去十年中迅速提升, 原因是构建了新的基准数据集 [45、46、19、21、10、30] 和改进的方法 [16、51、6、7、17、32、9、5、43、52、49]。标准化基准 [45、46、10] 为与不同算法的比较提供了公平的试验台。每年举办的跟踪挑战 [22、19、20、21] 不断推动跟踪性能。随着这些进步, 许多有前途的跟踪算法已经被提出。Bolme 等人的开创性工作将卷积定理从信号处理领域引入视觉跟踪, 并将对象模板匹配问题转化为频域内的相关操作。根据这种转换, 如果使用适当的特征 [16, 50, 51, 8, 6],基于相关滤波器的跟踪器不仅获得高效的运行速度, 而且还能提高精度。随着视觉跟踪中深度学习模型的广泛采用, 基于具有深度特征表示的相关滤波器的跟踪算法 [9, 5] 在主流的跟踪基准 [45, 46] 和挑战 [22, 19、20],取得了很好的效果。
   最近, 基于孪生网络的跟踪器因其平衡的跟踪精度和效率而受到极大关注 [40、1、15、42、41、12、24、43、52、44]。这些跟踪器将视觉跟踪表述为一个互相关问题, 有望更好地利用从端到端学习中的深度网络的优点。为了从两个分支的相互关联生成相似图, 它们训练一个 Y形神经网络, 该神经网络连接两个网络分支, 一个用于对象模板, 另一个用于搜索区域。此外, 这两个分支可以在跟踪阶段保持固定 [40、1、15、43、24、52] 或在线更新以适应目标 [42、41、12] 的外观变化。目前最先进的SiamRPN跟踪器 [24, 52] 通过区域建议网络提高了孪生网络的跟踪性能。然而, 在 OTB基准 [46] 上, 它们的跟踪精度仍然与 ECO[5] 和 MDNet [32] 等最先进的深度跟踪器相比有较大的差距。
  在 2012年,随着现代深度网络AlexNet网络的提出, 对网络体系结构的研究正在迅速增长, 许多复杂的深层体系结构被提出, 如 VGGNet [37], GoogleNet [38], ResNet [14] 和 MobilNet [18].这些深刻的架构不仅提供了更深入的理解神经网络的设计, 而且还推动了许多计算机视觉任务的发展, 如对象检测 [33], 图像分割 [4], 和人的姿势估计 [39]。在深度视觉跟踪器中, 由AlexNet或VGGnet 定制的网络体系结构通常包含的主干层不超过五个。这种现象可以解释为, 浅层特征主要有助于准确定位对象 [34]。在这项工作中, 我们认为, 如果模型与整个孪生网络进行适当的训练, 使用更深的模型可以显著提升孪生跟踪器的性能。

3. 具有深度网络的孪生跟踪

   这项工作最重要的发现是, 基于孪生网络的跟踪算法,如果它配备了更深层次的网络,他的性能可以显著提高。然而, 仅仅通过直接使用像 ResNet 这样的更深层次的网络来训练 Siamese 跟踪器并不能获得预期的性能改进。我们发现潜在的原因主要涉及孪生跟踪器的内在限制, 因此, 在介绍 SiamRPN + + 模型之前, 我们首先对 Siamese 网络针对跟踪进行更深入的分析。

3.1孪生跟踪网络分析

   基于孪生网络的跟踪算法 [40, 1] 将视觉跟踪设置为一个互相关的问题, 并从具有孪生网络结构的深层模型中学习跟踪相似度图, 其中一个分支用于学习目标的特征表示,另一个是搜索区域的。目标框通常在序列的第一帧中给出, 可以被看作是一个示例 z。目的就是在语义嵌入空间Φ(⋅) 中从帧 x 中找到最相似的补丁 (实例):
f ( z , x ) = ϕ ( z ) ϕ ( x ) + b f(z,x)= \phi (z) \ast \phi(x)+b

其中 b 用于模拟相似值的偏移量。
这个简单的匹配函数自然意味着设计Siamese跟踪器有两个内在的限制。

  • 在Siamese跟踪器中使用的收缩部分和特征提取器对严格的平移不变性有内在的限制, f ( z , x [ Δ τ j ] ) = f ( z , x ) [ Δ τ j ] f(z,x[\Delta\tau_j])= f(z,x)[\Delta\tau_j] , 其中 [ Δ τ j ] [\Delta\tau_j] 是平移子窗口的操作, 这确保了高效的训练和推断。
  • 收缩部分对结构对称性有内在的限制,例如: f ( z , x ) = f ( x , z ) f(z,x^\prime) = f(x^\prime ,z) ,适合于相似性学习。

   经过详细分析, 我们发现利用深度网络的孪生跟踪器性能不好的核心原因与这两个方面有关。具体而言, 一个原因是深部网络中的填充会破坏严格的平移不变性。另一个原因是 rpn 需要不对称的特征来进行分类和回归。我们将引入空间感知采样策略来克服第一个问题, 并在第3.4 节中讨论第二个问题

图1.在使用不同随机转换时, 对正样本的先验概率关系进行可视化。在±32像素内随机转换后, 分布变得更加均匀。
图2,随机转换对 VOT 数据集的影响

  
   严格的平移不变性只存在于没有填充网络中, 如修改后的AlexNet[1]。以前基于孪生的网络 [1, 42, 41, 24, 52] 被设计的很浅, 以满足这一限制。然而, 如果使用的网络是 ResNet 或 MobilNet 等现代网络。填充是使网络向更深入的必然, 这破坏了严格的平移不变性限制。我们的假设是, 违反这一限制将导致空间偏差
   我们通过在有填充物的网络上进行模拟实验来检验我们的假设。移位被定义为在数据增强中均匀分布所产生的最大平移范围。我们的模拟实验如下所示。首先, 在三个分离训练实验中, 目标被放置在不同移位范围 (0、16和 32) 的中心。收敛后, 我们聚合测试数据集上生成的热图, 然后在图1中可视化结果。在第一次零移模拟中, 边框区域的概率降低到零。这表明, 尽管测试目标出现了, 但还是学会了强烈的中心偏差。另外两个模拟表明, 增加移位范围将逐渐防止模型塌陷到这个微不足道的解决方案中。定量结果表明, 32 移位的聚合热图更接近测试对象的位置分布。证明了空间感知采样策略有效地缓解了填充网络引起的严格平移不变性特性的破坏。
   为了避免对对象产生强烈的中心偏差, 我们通过空间感知采样策略对 SiamRPN 进行了带有 ResNet-50 主干网络的训练。如图2所示, 在 VOT2018 上, 零移的性能减少到 0.14, 合适的移位 (±64像素) 对于训练深的 Siamese 跟踪器至关重要。

图3,说明我们提出的框架。给定目标模板和搜索区域, 网络通过融合多个孪生区域计划 (SiamRPN) 块的输出来输出密集的预测。每个 SiamRPN 块显示在右侧
3.2. ResNet驱动的孪生跟踪

   在上述分析的基础上, 中心偏置的影响可以消除。一旦我们消除了对中心位置的学习偏差, 任何现成的网络 (如 MobilNet, ResNet) 都可以利用进行视觉跟踪。此外, 我们还可以自适应地构建网络拓扑结构, 揭示深层网络的视觉跟踪性能。
   在本小节中, 我们将讨论如何将深层网络传输到我们的跟踪算法中。特别是, 我们进行的实验主要集中在ResNet-50 [14]。原来的 ResNet 有一个32像素的大步长, 不适合密集的孪生网络预测。如图3所示, 我们通过修改conv4和conv5块以具有单位空间步长, 将最后两个块的有效步幅从16个像素和32个像素减少到8个像素, 并通过扩大卷积增加其接受范围。[27]。在每个块输出上附加一个额外的1x1 卷积层, 以将通道减少到256。
   由于保留了所有图层的填充, 模板功能的空间大小增加到 15, 这给相关模块带来了沉重的计算负担。因此, 我们裁剪中心7x7 区域 [41] 作为模板特征, 其中每个特征单元仍然可以捕获整个目标区域。
   在 [24] 之后, 我们使用互相关层和完全卷积层的组合来组合头部模块, 以计算分类分数 (用 s 表示) 和边界框回归器 (由 b 表示)。孪生 RPN块由 p 表示。
   此外, 我们发现仔细微调 ResNet 将提高性能。通过设置比RPN零件小10倍的 ResNet 提取器的学习速率, 可以使特征表示更适合于跟踪任务。与传统的孪生方法不同, 深度网络是以端到端的方式共同训练的。据我们所知, 我们是第一个在深孪生网络 (> 20 层) 上实现端到端学习的人, 用于视觉跟踪。

3.3. 分层聚合

   在利用了ResNet-50 这样的深层网络后, 可以聚合不同的深层。从直觉上讲, 视觉跟踪需要丰富的表示形式, 这些表示形式跨越从低到高的水平, 从小到大的可扩展, 分辨率从细到粗。即使在卷积网络中具有特征的深度, 隔离的图层也是不够的: 对这些表示进行复合和聚合可以提高识别和本地化的推断。
   在以前只使用像AlexNet这样的浅层网络的作品中, 多级功能不能提供非常不同的表示。然而, 考虑到接受场的差异, ResNet 中的不同层更有意义。早期图层中的特征将主要集中在颜色、形状等低级信息上, 这些信息对于本地化至关重要, 同时缺乏语义信息;后一层的特征具有丰富的语义信息, 在某些挑战场景 (如运动模糊、巨大变形) 中非常有用。利用这种丰富的层次结构信息是为了帮助跟踪而使用的。
   在我们的网络中, 提取多分支特征, 以协作推断目标定位。至于 ResNet50, 我们将探索从最后三个剩余块中提取的多层次特征, 以便进行分层聚合。我们将这些输出分别称为 F3(z)、F4(z) 和 F5(z)。如图3所示, conv3、conv4、conv5的输出分别输入三个 Siamese RPN 模块。
   由于三个 rpn 模块的输出尺寸具有相同的空间分辨率, 因此直接在 rpn 输出上采用加权和。称重融合层结合了所有输出。
S a l l = i = 3 5 α i S l , B a l l = i = 3 5 β i B l S_{all}= \sum_{i=3}^5 \alpha_i\ast S_l , B_{all}= \sum_{i=3}^5 \beta_i\ast B_l

图4,不同的互相关图层的插图。(a) 互相关 (xcorr) 层预测 siamfc 中目标模板和搜索补丁之间的单通道相似度映射 [1]。(b) 上通道互相关 (up-xcorr) 层通过在 SiamRPN 中级联具有多个独立 xcorr 层的大量卷积层, 从而输出多通道相关特征 [24]。(c) 深度互关联 (dw-xcorr) 层预测模板和搜索补丁之间的多通道相关特征。

组合权重被分离进行分类和回归, 因为它们的域是不同的。权重与网络一起进行端到端的离线优化。
与以前的作品不同的是, 我们的方法并不明确地结合卷积特征, 而是分别学习分类器和回归。请注意, 随着主干网络深度的显著增加, 我们可以从可视语义层次结构的充分多样性中获得可观的收益。

3.4. 深度互相关

   互相关模块是嵌入两个分支信息的核心操作。siamfc [1] 利用互相关层获取目标定位的单个通道响应映射。在 SiamRPN [24] 中, 通过添加巨大的卷积层来缩放通道 (up-xcorr), 将互相关扩展到嵌入更高级别的信息 (如锚点)。大通道模块使参数分布严重失衡 (即 rpn 模块包含20m 参数, 而特征提取器仅包含 [24] 中的4m 参数), 这使得 SiamRPN 中的训练优化变得很困难。

图5.Conv4中的深度相关输出通道。Conv4总共有256个通道, 然而, 在跟踪过程中只有少数通道有很高的响应。因此, 我们选择 148th, 222th, 226th通道作为演示, 这是图中的第2、第3、第4行。第一行包含 OTB 数据集 [46] 中的六个相应搜索区域。不同的通道代表不同的语义, 148th 通道对汽车的响应很高, 而对人和人的反应很低。第222和第266通道对人和脸的反应分别很高。

   在本小节中, 我们提出了一个轻量级的互相关层, 名为深度互相关 (DWS-XCorr), 以实现高效的信息关联。DW-XCorr 层包含的参数比 SiamRPN 中使用的 UP-XCorr 少 10倍, 而性能与之相当。
   为了实现这一目标, 采用了一个conv-bn块来调整每个剩余块的特征, 以适应跟踪任务。关键的是, 边界框预测和锚点分类都是不对称的, 这与 siamfc 不同 (见第3.1 节)。为了对差异进行编码, 模板分支和搜索分支传递两个非共享卷积层。然后两个通道数相同的特征图通过信道执行相关操作。并且另一个conv-relu 块, 以融合不同的通道输出。最后, 附加了分类或回归输出的最后一个卷积层。
   通过将相互替换为深度相关, 可以大大降低计算成本和内存使用量。这样, 模板和搜索分支上的参数数量就平衡了, 从而使培训过程更加稳定。
   此外, 图5还说明了一个有趣的现象。同一类别中的对象在同一通道上具有较高的响应 (汽车在148th 通道, 人在222th 通道, 面对在第262通道), 而其余通道的响应被抑制。此属性可以理解为深度互相关所产生的通道鲁棒性特征几乎是正交的, 每个通道表示一些语义信息。我们还分析了使用上通道互相关时的热图, 而响应图的解释性较差。

4. 实验结果
4.1. 培训数据集和评估

   训练。我们的体系结构的骨干网 [14] 是在 imagenet [36] 上预先训练过图像标签, 这已被证明是对其他任务的一个很好的初始化 [13, 27]。我们在 coco [25]、imagenet det [36]、imagenet vid 和 youtube-bocbox 数据集 [35] 的训练集上训练网络, 并了解如何测量视觉跟踪的一般对象之间的相似性的通用概念。在训练和测试中, 我们使用具有127像素的单比例图像表示模板, 255 像素用于搜索区域。
   评价。我们专注于 OTB2015 [46]、VOT2018 [21] 和 uav123 [31] 的短期单一目标跟踪。我们使用 VOT2018-lt [21] 来模拟长期环境。在长期跟踪中, 物体可能会离开视野或被完全遮挡很长时间, 这比短期跟踪更具挑战性。我们还分析了我们的方法在 LaSOT [10] 和 TrackingNet [30] 的推广, 这两个最近最大的基准单目标跟踪。

4.2. 执行细节

   网络体系结构。在实验中, 我们遵循 [52] 的训练和推理设置。我们在减少步幅的resnet-50上附加两个同级卷积层(3.2节)并且用5个锚进行方案分类和边界框回归。三个随机初始化的1x1 卷积层附加到conv3、conv4和conv5上, 用于将特征尺寸减小到256。
   优化。SiamRPN ++ 用随机梯度下降 (SGD)训练。我们使用 8个GPUs 的同步SGD, 每分一次总共128对 (每个GPU 16 对), 这需要12个小时才能收敛。我们使用热身学习率0.001 在前5次迭代训练 RPN分支。在过去的15次迭代, 整个网络是端到端训练的, 学习速度从0.005 到0.0005 呈指数级衰减。权重衰减为 0.0005, 使用0.9的动量。训练损失是分类损失和回归的 L1 损失之和。

4.3. 消融实验

   主干架构。特征提取器的选择至关重要, 因为参数和层类型的数量直接影响跟踪器的内存、速度和性能。我们比较不同的网络体系结构的可视化跟踪。图6显示了使用 alesnet、ResNet-18、ResNet-34、ResNet-50 和 mobilenet-v2 作为主干的性能。我们报告了 OTB2015 上成功地块的 “曲线下区域” (auc) 在 imagenet 上的排名第一的准确性方面的表现。我们观察到, 我们的 SiamRPN ++ 可以受益于更深的conv-nets。

表1.关于 VOT2018 和 OTB2015 上拟议跟踪器的消融研究。L3、L4、L5 分别代表第conv3,conv4,conv5。finetune 表示是否对主干进行脱机训练。Up/DW 表示向上通道相关性和深度相关。

   表1还说明, 通过将AlexNet替换为 ResNet-50, 在vot2018 数据集上的性能有了很大提高。此外, 我们的实验表明, 精细化主干部分至关重要, 这对跟踪性能有了很大的提高。
   分层式功能聚合。为了研究层级特征聚合的影响, 首先我们在 ResNet-50 上训练三个带有单个 rpn 的变体。我们的经验发现, 仅conv4就能在 eao 中达到0.374 的竞争性能, 而较深的层和浅层则能以4% 的下降方式表现。通过组合两个分支conv4和 conv5性能获得改善, 但在其他两个组合上没有观察到改进。尽管, 鲁棒性增加了 10%, 这也是我们的跟踪器的关键弱点。这意味着我们的跟踪器还有改进的余地。在聚合了所有三层之后, 准确性和鲁棒性都稳步提高, VOT 和 OTB 的收益在3.1% 和1.3% 之间。总体而言, 层级特征聚合在 VOT2018 上获得 0.414 EAO 分数, 比单层基线高4.0%。
   深度相关性。我们比较了原始的上通道互相关层,提出的深度互相关层。如表1所示, 拟议的深度相关性比 VOT2018 提高了 2.3%, 比 OTB2015 提高了0.8%。
显示了深度关联的重要性。这在一定程度上是因为两个分支的参数分布平衡, 使学习过程更加稳定, 并更好地收敛。

4.4. 与最先进技术的比较

   OTB-2015 数据集。标准化 OTB 基准 [46] 为鲁棒性提供了一个公平的测试平台。基于 Siamese 的跟踪器将跟踪制定为单次检测任务, 无需任何在线更新, 从而降低了此无复位设置基准的性能。然而, 我们认为浅层网络的有限表示是阻止基于孪生的跟踪器超越性能最佳的方法的主要障碍 (如 C-COT变体 [9, 5])。
   我们将 OTB2015 上的 SiamRPN + + 跟踪器与最先进的跟踪器进行比较。图7显示, 我们的 SiamRPN ++ 跟踪器在重叠成功时产生领先的结果。与最近的 DaSiamRPN [52] 相比, 我们的 SiamRPN + + 从显著增加的深度提高了3.8% 的重叠和3.4% 的精度。从深ConvNets提取的表示对光照和背景杂波的敏感性较低。据我们所知, 这是 Siamese 跟踪器首次能够获得与 OTB2015 数据集上最先进的跟踪器的可比性能。
   vt2018 数据集。我们在最新的 VOT-2018 数据集上测试 SiamRPN ++ 跟踪器 [21], 与采用10种最先进的方法比较。VOT-2018 公共数据集是评估在线无模型单个对象跟踪器的最新数据集之一, 包括60个具有不同挑战性因素的公共序列。根据VOT-2018的评估协议,我们采用预期平均重叠(EAO)、准确度(A)和鲁棒性(R)以及无重置平均重叠(AO)来比较不同的跟踪器。详细比较见表2。

   从表2中我们观察到, 所提出的 SiamRPN + + 方法在 EAO、A、R和 AO标准上达到了一流的性能。特别是, 我们的 SiamRPN + + 跟踪器的性能优于所有现有的跟踪器, 包括 VOT2018 挑战的获胜者。与 VOT2018 挑战中的最佳跟踪器 (LADCF[21]) 相比, 该方法的性能提高了2.5%。此外, 我们的跟踪器比挑战优胜者 (MFT[21]) 有了实质性的改进, 精度提高了9.5%。

图8.预计 vot2018的平均重叠性能

  
   与基线跟踪器 DaSiamRPN 相比, 我们的方法在鲁棒性方面获得了10.3 的实质性收益, 这是基于 Siamese 网络的跟踪器对相关滤波器方法的常见弱点。尽管由于缺乏对模板的适应, 鲁棒性仍然与依赖于在线更新的最新相关筛选器方法UPDT[2] 存在差距。还采用 “一通” 评估 (OPE) 来评估跟踪器, 并报告 AO 值以显示其性能。从表2中的最后一行, 我们可以观察到, 我们的方法实现了与 DLSTpp [21] 相比的可比性能, 并以10.0 的绝对增益改进了 DaSiamRPN [52] 方法。

   准确性与速度。在图9中, 我们将 VOT2018 上的EAO与帧(FPS) 相关。报告的速度是在 NVIDIA Titan Xp GPU的机器上评估的, 其他结果由 VOT2018 官方结果提供。从剧情来看, 我们的 SiamRPN ++ 实现了最佳性能, 同时仍在实时运行 speed(35 fps)。值得注意的是, 我们的两个变种实现了与 SiamRPN ++几乎相同的精度,而运行超过 70FPS, 这使得这两个变种具有高度竞争力。
   vt2018 长时数据集。在最新的 VOT2018 挑战中, 新引入了一项长期实验。它由35个长序列组成, 其中目标可能会离开视野或在很长一段时间内完全被遮挡。性能测量值为精度、召回和 f 分的组合。与 VOT2018-lt 上最先进的跟踪器相比, 我们报告了所有这些指标。

   如图10所示, 在为我们的跟踪器配备长期策略后, SiamRPN ++ 从 Dsiam_lt 获得2.2% 的收益, 并且在 F_scores中的性能优于最佳跟踪器1.9%。ResNet 提取的强大功能从我们的基线 DaSiamRPN 中绝对提高了2% 的 TP 和 TR。同时, SiamRPN ++ 的长期版本仍然能够运行在 21 fps, 这是几乎8倍的 MBMD [21]。
   uav123 Dataset.。uav123 数据集包括123个序列, 平均序列长度为915帧。除最近的跟踪器以外在 [29], eco [5], ecoc-hc [5], daSiamRPN [52], SiamRPN [24] 在比较被增加。图11说明了比较跟踪器的精度和成功图。具体而言, 我们的智能设备的成功得分为 0.613, 优于 daSiamRPN (0.586) 和 eco (0.52),
   LaSOT Datase。为了进一步验证在更大、更具挑战性的数据集上的拟议框架, 我们在 lsot 上进行了实验 [10]。losot 数据集提供了一个大规模、高质量的密集注释, 总共有 1, 400个视频, 测试集中有280个视频。图12报告了我们的 SiamRPN ++ 跟踪器在 lsot 测试集上的整体性能。如果没有铃声和口哨, 我们的 SiamRPN ++ 模型就足以达到最先进的 auc 分数49.6%。具体而言, SiamRPN ++ 在 mdnet [32] 上相对地将归一化距离精度和 auc 提高23.7% 和 24.9%, 这是原纸张中报告的最佳跟踪器。
   TrackingNet Dataset。最近发布的跟踪网 [30] 提供了大量的数据来评估在野外的跟踪器。我们评估 SiamRPN + + 在其测试集与511视频。在 [30] 之后, 我们使用三个指标成功 (auc)、精度和归一化精度进行评估。表3演示了与具有 autuc 最高分数的跟踪器的比较结果, 显示 SiamRPN ++ 在所有三个指标上都取得了最佳结果。具体而言, SiamRPN ++ 获得的 auc 分数为 73.3%, p 得分为 6.4%, 适用标准评分为 80.0%, 优于第二好的跟踪者 daSiamRPN [52], auc 得分为 69.4, p 评分为 51.5%, p出价评分为 73.3, 分别为9.5%、10.3 和6.6%。
总之, 需要注意的是, 所有这些一致的结果显示了 SiamRPN ++ 的泛化能力。

5. 结论

   在本文中, 我们提出了一个统一的框架, 称为 SiamRPN ++, 到端到端训练一个深度 Siamese 网络的视觉跟踪。我们展示了理论和经验的证据,怎样去如何训练一个深度网络上的孪生跟踪器。我们的网络由一个多层聚合模块和一个深度相关层组成,该模块组装连接层次以聚合不同级别的表示,并允许我们的网络减少计算成本和减少冗余参数,从而使其能够更好地收敛。使用 SiamRPN ++, 我们在 VOT2018 上实时获得了最先进的结果, 显示了 SiamRPN ++ 的有效性。SiamRPN ++ 还在 LaSOT和TrackingNet 等大型数据集上取得了最先进的结果, 显示了其通用性。

print_r('别的都不会!');
var_dump('别的都不会!');
NSLog(@"别的都不会!");
System.out.println("别的都不会!");
console.log("别的都不会!");
print("别的都不会!");
printf("别的都不会!\n");
cout << "别的都不会!" << endl;
Console.WriteLine("别的都不会!");
fmt.Println("别的都不会!");
Response.Write("别的都不会!");
alert("别的都不会!")
echo "别的都不会!"

猜你喜欢

转载自blog.csdn.net/weixin_41063476/article/details/87881366