《Deep Learning for Visual Tracking: A Comprehensive Survey》

摘要：

视觉目标追踪是计算机视觉中最受欢迎也最具挑战性的研究课题之一。考虑到问题不适定性质以及它在广泛的现实场景中的流行程度，（我们）已经建立了一个大规模基准数据集，在这些数据集上已经开发了大量的方法，并且在近些年来取得了显著的进展——主要是最近基于深度学习的方法。这篇报告旨在系统地调查目前基于深度学习地视觉跟踪方法、基准数据集和评价指标，并且广泛评估和分析了主要的视觉跟踪方法。首先，从网络架构，网络开发，视觉跟踪的网络训练、网络目标、网络输出和相关滤波优势的利用六个关键方面总结了基于深度学习方法的基本特征、主要动机和贡献。第二，比较了常见的视觉跟踪基准及其各自的性能，总结了他们的评价指标。第三，在OTB2013,OTB2015,OTB2018和LaSOT等一系列完善的基准上，我们对最先进的基于深度学习的方法进行了全面的研究。最后，通过对这些最新的方法进行定量和定性的批判性分析，研究了他们在各种常见场景下的优缺点。本文可以作为一个温和的使用指南，供从业者权衡何时和在什么条件下选择哪种方法。并且还促进了正在进行的问题的讨论，并阐明了有前途的研究方向。

介绍：

在这里插入图片描述

一般视觉跟踪的目的是估计未知视觉目标的轨迹，当目标的初始状态(在视频帧中)是可用的。视觉跟踪是一个开放而有吸引力的研究领域(见图1)，具有广泛的分类和应用。包括自动驾驶汽车、自主机器人、监控、增强现实、无人机追踪、体育、外科、生物学、海洋探索等等。视觉追踪的不适定的定义（例如，模式自由跟踪（model-free tracking）、动态（或是即时）学习（on-the-fly learning）、单摄像头、2D信息）时更具挑战性的复杂的真实世界的场景，可能包括任意类型的目标外观和运动模式（例如，人类、无人机、动物、车辆），不同的成像特征（例如，静态/移动相机，光滑/突然运动，相机分辨率）和环境条件的变化（如光照变化，背景杂乱，拥挤的场景）。尽管传统的视觉追踪方法利用各种框架，例如（DCF）discriminative correlation filters、silhouette tracking 、Kernel tracking、point tracking等等。这些方法只在一些受约束的环境下才会有比较不错的结果。其中最主要的原因是这些目标的表示都是手工制作的特征（比如定向梯度的直方图HOG或者颜色名字，以及其他僵化的目标建模）。受到ImageNet大型视觉识别比赛中深度学习的突破和视觉对象追踪（VOT）的挑战的启发，基于深度学习的方法引起了视觉追踪社区的极大兴趣，以提供健壮的视觉追踪器。尽管CNN网络最初已经占领网络的主导地位，但更广泛的网络架构，比如Siamese neural networks（SNNs，暹罗神经网络），recurrent neurals networks（RNNs，递归神经网络），auto-encoders（AEs，自动编码器）,generative adversarial networks（GANs，生成对抗网络），and custom neural networks（自定义神经网络）目前正在研究中。图2是近年来深度视觉跟踪器发展的简史。目前最先进的基于深度学习的视觉追踪器在深度架构的开发、骨干网络、学习过程、训练数据集、网络目标、网络输出、挖掘深度特性的类型、CPU/GPU实现、编程语言和框架、速度等方面都有明显的特点。另外，在过去的几年里，人们提出了一些视觉跟踪基准数据集，用于视觉跟踪方法的实践训练和评估。尽管有不同的属性，一些基准数据集有共同的视频序列。因此，本文将对基于深度学习的方法、基准数据集和评价指标进行比较研究，以促进视觉跟踪领域开发先进的方法。

在这里插入图片描述

视觉追踪方法可以大致分为计算机视觉深度学习革命前和革命后两大类。第一类的视觉追踪调查论文主要回顾了基于经典物体和运动表征的传统方法，然后系统地、实验地或两者兼之地考察它们的优缺点。考虑到深度学习视觉追踪器的重大进展，关于这些方法的回顾显然已经过时。相反地，第二类的综述则为深度视觉追踪器。文章[51],[52]将81个手工深度视觉跟踪器和93个手工深度视觉跟踪器分为相关滤波跟踪器和非相关滤波跟踪器，并根据结构和跟踪机制进行进一步分类。这些文章研究了不到40中基于深度学习的方法作了有限的调查研究。尽管文章[54]特别调查了9种基于SNN方法的网络分支、层次和训练方面，但它没有包括最先进的基于SNN的追踪器（如[55]-[57]）和部分利用SNN的自定义网络（如[58]）。上一篇综述文章[53]根据结构、功能和训练对43种基于深度学习的方法进行了分类。然后，用不同的基于手工的视觉跟踪方法对16个基于深度学习的视觉跟踪器进行评估。从结构上看，这些跟踪器分为34种基于cnn的方法(包括10种基于cnn匹配的方法和24种基于cnn分类的方法)、5种基于rnn的方法和另外4种基于架构的方法(如AE)。此外，从网络功能的角度来看，这些方法分为特征提取网络(FEN)和端到端网络(EEN)。但是FENs是针对不同任务开发预训练模型的方法，EENs是根据它们的输出进行分类的，即对象分数、置信度映射和边框（BB）。从网络训练的角度来看，这些方法分为NP-OL、IP-NOL、IP-OL、VP-NOL和VP-OL，其中NP、IP、VP、OL和NOL分别是no pre- training、image pre- training、video-pre- training、online learning和no online learning的缩写。

尽管我们做了很多努力，但目前还没有全面的研究来广泛地分类基于深度学习的追踪器、他们的动机以及对不同问题的解决方案，也没有根据不同的挑战性场景实验分析最佳的方法。基于这些关注，本调查的主要目标是填补这一空白，并调查目前的主要问题和未来的方向。本次调查与以往调查的主要区别如下：

与以往调查的差异:尽管目前已有综述论文，但本文仅着重于发表在主要图像处理和计算机视觉会议和期刊上的129种最先进的基于深度学习的视觉跟踪方法。这些方法包括：HCFT [59], DeepSRDCF [60], FCNT [61], CNNSVM [62], DPST [63], CCOT [64], GOTURN [65], SiamFC [66], SINT [67], MDNet [68], HDT [69], STCT [70], RPNT [71], DeepTrack [72], CNT [73], CF-CNN [74], TCNN [75], RDLT [76], PTAV [77], [78], CREST [79], UCT/UCTLite [80], DSiam/DSiamM [81], TSN [82], WECO [83], RFL [84], IBCCF [85], DTO [86]], SRT [87], R-FCSN [88], GNET [89], LST [90], VRCPF [91], DCPF [92], CFNet [93], ECO [94], DeepCSRDCF [95], MCPF [96], BranchOut [97], DeepLMCF [98], Obli-RaFT [99], ACFN [100], SANet [101], DCFNet/DCFNet2 [102], DET [103], DRN [104], DNT [105], STSGS [106], TripletLoss [107], DSLT [108], UPDT [109], ACT [110], DaSiamRPN [111], RT-MDNet [112], StructSiam [113], MMLT [114], CPT [115], STP [116], Siam-MCF [117], Siam-BM [118], WAEF [119], TRACA [120], VITAL [121], DeepSTRCF [122], SiamRPN [123], SA-Siam [124], FlowTrack [125], DRT [126], LSART [127], RASNet [128], MCCT [129], DCPF2 [130], VDSR-SRT [131], FCSFN [132], FRPN2TSiam [133], FMFT [134], IMLCF [135], TGGAN [136], DAT [137], DCTN [138], FPRNet [139], HCFTs [140], adaDDCF [141], YCNN [142], DeepHPFT [143], CFCF [144], CFSRL [145], P2T [146], DCDCF [147], FICFNet [148], LCTdeep [149], HSTC [150], DeepFWDCF [151], CF-FCSiam [152], MGNet [153], ORHF [154], ASRCF [155], ATOM [156], CRPN [157], GCT [158], RPCF [159], SPM [160], SiamDW [56], SiamMask [57], SiamRPN++ [55], TADT [161], UDT [162], DiMP [163], ADT [164], CODA [165], DRRL [166], SMART [167], MRCNN [168], MM [169], MTHCF [170], AEPCF [171], IMM-DFT [172], TAAT [173], DeepTACF [174], MAM [175], ADNet [176], [177], C2FT [178], DRL-IS [179], DRLT [180], EAST [181], HP [182], P-Track [183], RDT [184], and SINT++ [58]。

这些追踪器包括了73个 CNN-based, 35个 SNN-based, 15个 custom-based （包括基于基于AE的，强化学习，组合网络），三个RNN-based和三个GAN-based 方法。本文的一个主要贡献和新颖之处在于包含和比较了目前视觉跟踪学界非常感兴趣的基于snn的视觉跟踪方法。此外，本文还对近年来基于GAN和自定义网络(包括基于RL的方法)的可视化跟踪器进行了综述。虽然这篇综述的方法归类为利用现成的深度特征和深度特征进行视觉跟踪（类似于【53】中的FEN和EEN），但同时也介绍了这些方法的详细特性，如预训练或主干网络、利用的层、训练数据集、目标函数、跟踪速度、使用的特征、跟踪输出类型、CPU/GPU实现、编程语言、深度学习框架。从网络训练的角度，本文独立调查现成的深度特征和用于视觉目标追踪的深度特征。由于深度现成特征（即从FEN中提取）大多在ImageNet上为目标识别任务预先训练，因此将独立审查其训练细节。因此，用于视觉目标追踪目的的网络训练被归类为仅利用离线训练，仅利用在线训练或同时利用离线和在线训练过程的基于深度学习的方法。最后，本文在四个视觉跟踪数据集上对45种最先进的视觉跟踪方法进行了综合分析。

本篇文章的主要贡献概述如下：

基于深度学习的最新视觉目标追踪方法根据其结构（例如，CNN,SNN,RNN,GAN或自定义网络），网络利用（即用于视觉跟踪的现成深度特征和深度特征）、用于视觉跟踪的网络训练(即仅离线训练、仅在线训练、离线和在线训练）、网络目标（即基于回归、基于分类、以及基于分类和回归两种方法），以及利用相关滤波器的优点（即DCF框架和利用相关滤波器/层/函数）。这种在视觉跟踪方法的详细分类中涵盖所有这些方面的研究以前没有提出。

总结了基于深度学习的方法在解决视觉跟踪问题方面的主要动机和贡献。就我们所知，这是第一篇研究视觉跟踪方法的主要问题和解决方案的论文。这种分类为设计精确和稳健的基于深度学习的视觉跟踪方法提供了适当的见解。

基于基本特征（包括视频数量、帧数、类/簇数、序列属性、无标签、与其他数据集重叠等），对近期的可视化跟踪基准数据集包括OTB2013 [185], VOT [40]–[46], ALOV[48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO[189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193],BUAA-PRO [194], GOT10k [195], and LaSOT [196]进行比较。

最后，对知名的OTB2013、OTB2015、VOT2018和LaSOT视觉跟踪数据集进行了广泛的定量和定性实验评价，并从不同方面分析了最先进的视觉跟踪器。此外，本文不仅针对VOT2018数据集，而且首次针对OTB2015和LaSOT数据集规定了最具挑战性的视觉属性。最后，对VOT工具包【45】进行了修改，以根据TraX协议【197】对不同方法进行定性比较。

根据比较，提出了以下意见：

基于SNN的方法由于其在视觉跟踪中对性能和效率的平衡有着不错的效果，因此是最有吸引力的深度体系结构。另外，近年来，视觉跟踪方法试图利用RL和GAN方法的优点来细化决策，缓解训练数据缺乏的问题。基于这些优点，近年来的视觉跟踪方法旨在设计用于视觉跟踪的自定义神经网络。

深度特征的离线端到端学习，对预先训练好的特征进行适当的适配，并用于可视化跟踪。虽然DNN的在线训练增加了计算复杂度，使得大多数方法不适合实时应用，但它大大有助于视觉跟踪器适应明显的外观变化，防止视觉干扰，提高视觉跟踪方法的准确性和鲁棒性。因此，利用离线和在线训练程序提供了更强大的视觉跟踪器。

利用更深更广的主干网络，可以提高区分目标与背景的能力。

最佳视觉跟踪方法利用回归和分类目标函数，不仅可以估计最佳目标方案，而且可以找到最紧密的目标定位方法。

不同特征的利用增强了目标模型的鲁棒性。例如，大多数基于DCF的方法都融合了深度现成的特征和手工制作的特征（如HOG和CN ）。此外，利用时间或上下文信息等互补特征，为目标表示提供了更具有鉴别性和强健性的特征。

基于DL的视觉跟踪方法最具有挑战性的属性是遮挡、视距和快速运动。此外，具有相似语义的视觉干扰物也可能导致漂移问题。

本文的其余部分如下。第2节介绍我们深度视觉跟踪方法的分类。第三节对视觉跟踪基准数据集和评价指标进行了简要的比较，第四节对最先进的视觉跟踪方法进行了实验比较，最后，第五节总结了结论和未来方向。

2.深度视觉跟踪方法的分类

本节将介绍的三个主要组成部分：目标表示/信息、训练过程和学习过程。然后，提出了基于DL方法的综合分类法。

基于DL方法的主要动机之一是通过利用/融合深度层次特征、利用上下文信息或运动信息以及选择更具有鉴别性和鲁棒性的深度特征来改进目标表示。此外，基于DL的方法旨在有效地训练用于视觉跟踪系统的DNN。他们的一般动机可以分为：采用不同的网络训练（如网络预训练、在线训练或两者兼而有之）或处理一些训练问题（如训练数据不足、训练数据过拟合以及计算复杂度）。无监督训练是使用大量未标记样本的另一种新方案，其可以通过根据上下文信息对这些样本进行聚类、将训练数据映射到流形空间或利用基于一致性的目标函数来执行。最后，根据学习过程，将基于DL的跟踪器的主要动机分为在线更新方案、长宽比估计、尺度估计、搜索策略和提供长期记忆。

在这里插入图片描述

下面从网络架构、网络利用、基于视觉跟踪的网络训练、网络目标、网络输出以及相关滤波器优势的利用六个主要方面对基于DL的可视化跟踪方法进行综合分类。图3示出了基于DL的视觉跟踪方法的拟议分类。此外，其他重要细节包括预训练网络、主干网络、被利用的层、深度特征的类型、手工和深度特征的融合、训练数据集本节将介绍跟踪输出、跟踪速度、硬件实现细节、编程语言和DL框架。在本节中，不仅对基于DL的视觉跟踪方法进行了分类，而且对这些方法的主要动机和贡献进行了分类，这些方法能够为确定未来方向提供有益的视角。

2.1 网络架构

尽管CNN已经广泛地用于基于DL的方法，但近年来其他体系结构也主要是为了提高视觉跟踪器的效率和鲁棒性而开发的。根据基于各种深度结构的技术程度，分类方法分为基于CNN、基于SNN、基于GAN、基于RNN和基于自定义网络的方法。

2.1.1 卷积神经网络（CNN）

受CNN在计算机视觉任务方面的突破以及参数共享、稀疏交互和显性表现等吸引人的优点的激励，许多方法利用CNN进行视觉跟踪。基于CNN的视觉跟踪器主要根据以下动机进行分类：

鲁棒的目标表示：提供强大的目标表示是使用CNN进行视觉跟踪的主要优势。为了实现学习目标建模的通用表示和构建更稳健的目标模型的目标，方法的主要贡献分为：

对CNN进行大规模数据集离线训练，以便进行视觉跟踪（ [63], [68], [80], [89], [97], [100], [101], [104], [112],
[116], [135], [137], [142], [144], [153], [165], [168], [169], [173]）

设计特定的深度卷积网络，而不是使用预先训练的模型（ [63], [68], [70], [72], [73],[75], [76], [80], [82], [89], [97], [100], [101], [104], [105], [108],[112], [116], [127], [135], [137], [141], [142], [144], [146], [150],[153], [165], [167]–[169], [171], [173]）

构建多个目标模型，捕捉各种目标外观（ [75], [116], [127], [129], [130], [143], [146], [172]）

合并空间和时间信息以改进模型的泛化（ [79], [82], [106], [119], [122], [137], [151], [153]）

融合不同的深度特征，利用互补的空间和语义信息（n [64], [101], [108], [109], [135]）

学习不同的目标模型，例如相对模型（[104]）或基于部分的模型（ [116], [127], [146]），以处理部分遮挡或变形。

利用双流网络【127】防止过拟和学习旋转信息

训练数据平衡：根据视觉跟踪的定义，第一帧只有一个正向样本，增加过拟合的风险。虽然背景信息任意性可以认为是每帧中的负信息，但是基于不完全目标估计的目标采样也可能导致训练样本的噪声/不可靠。这些问题严重影响了视觉跟踪方法的性能。为了减轻这些影响，基于CNN的方法提出：

领域适应机制(即从源领域向目标领域转移所学知识，足够的样本)( [89], [165])

各种更新机制（例如，周期性、随机、短期和长期更新）( [105], [129], [143], [149], [169])

卷积Fisher鉴别分析（FDA）用于正负样本挖掘[141]

用于在线集合学习的多分支CNN([97])以及提高训练样本数量的有效抽样策略（[171]）

计算复杂度问题：虽然CNN在目标估计精度方面取得了显著进展，但基于CNN的方法仍存在较高的计算复杂度。为了减少这种限制，基于CNN的视觉跟踪方法利用了不同的解决方案，即：

把CNN分解成几个缩小的网络[76]

压缩或修剪训练样本空间[94]、[115]、[141]、[153]、[168]或特征选择[61]、[154]

通过RoIAlign操作[112]进行特征计算（即通过双线性插值进行特征逼近）或倾斜随机森林[99]以获得更好的数据捕获

校正域适配方法[165]

轻量级结构 [72], [73], [167]

高效优化过程 [98], [155]

利用相关滤波器用于高效计算[59]–[61], [64], [69], [74], [77]–[80], [83], [85], [86], [92], [94]–[96], [98], [100], [106],[108], [109], [115], [119], [122], [126], [127], [129]–[131], [135], [140], [141], [143], [144], [149]–[151], [155], [159], [165], [167], [171], [172], [174]

粒子采样策略[96]

利用注意力机制[100].

2.1.2 Siamese Neural Network (SNN)

近年来，为了学习相似性知识，实现实时性，SNN被广泛地用于视觉跟踪。给定目标区域和搜索区域对，这些孪生网络计算相同的函数以生成相似度映射。基于SNN方法的共同目标是克服预先训练的深度CNN的局限性，并充分利用端到端的实时学习优势。

识别目标表示：视觉跟踪器构建稳健目标模型的能力主要依赖于目标表示。为了实现更具有鉴别性的深特征和改进目标建模，基于SNN的方法提出：

学习 distractor-aware（干扰器感知？）【111】或目标感知功能[161]

融合多级深度特征[132],[157]或组合置信图[88,][90],[124]

利用Siamese 公式中不同损失函数来训练更有效的过滤器[57],[107],[161]-[163]

利用不同类型的深度特征，例如上下文信息[117],[124],[158]或时间特征/模型[65],[81],[125],[133],[158],[175]

充分探索低level空间特征[132],[157]

考虑目标的角度估计以防止突出的背景对象[118]

利用多级回归来细化目标表示[157]

使用更深更广的深度网络作为backbone，增加神经元的感受场，这相当于捕获目标的结构【56】。

适应目标外观变化：仅使用基于SNN的第一代方法的离线训练，导致总体情况不佳。将这些方法化，以适应目标外观的变化。为了解决这一问题，最近基于SNN的方法提出了：

在线更新策略[81], [90], [93], [103], [111], [152], [156], [163]

背景抑制[81], [111]

将跟踪任务制定为一次性局部检测任务[111]、[123]

赋予重要特征信道或评分图[88]、[124]、[128]、【148】权重更高的值。
v

另外，DaSiamRPN[111]和MMLT[114]分别使用局部到全局的搜索区域策略和内存利用来处理关键挑战，如完全遮挡和视野外，并增强局部搜索策略。

训练数据平衡：基于CNN的方法同样存在问题，基于SNN的方法也已经对训练样本分布不均衡问题进行了一些努力。基于SNN的方法的主要贡献是：

利用多级Siamese框架来刺激hard 负采样。【157】

采用采样启发式，例如固定前背景比【157】或采样策略，例如随机采样【111】或流引导采样[133]

利用相关滤波器/层的优势，将相关滤波器/层应用于Siamese框架[77]、[78]、[81]、[93]、[102]、[111]、[123]、[125]、[128]、[148], [152]、[154]、[156]、[161]、[162]、[170]

2.1.3 Recurrent Neural Network (RNN)

由于视觉跟踪与视频帧的时间和空间空信息都相关，因此采用基于RNN的方法同时考虑目标的motion/movement。由于训练的繁重和参数的众多，基于RNN的方法数量有限。几乎所有这些方法都试图利用额外的信息和内存来改进目标建模。此外，使用基于RNN方法的第二个目标是避免对预先训练的CNN模型进行微调，这需要花费大量时间并且容易过拟合。这些方法的主要目的可以归类为时空表示捕获[84]、[139]、【175】，利用上下文信息处理背景杂波【139】。利用多级视觉注意来突出显示目标以及背景抑制【175】，并且使用卷积长短期记忆（LSTM）作为先前目标出现【84】的记忆单元。此外，基于RNN的方法利用金字塔多向递归网络【 139 】或将LSTM纳入不同的网络【 84 】来记忆目标的出现并研究时间相关性。最后， [139]对目标的自结构进行编码，以降低与类似干扰相关的跟踪敏感度。

2.1.4 Generative Adversarial Network (GAN)

基于捕获统计分布和生成所需训练样本等具有吸引力的优点，GAN在很多研究领域得到了广泛的应用。虽然GAN通常很难训练和评估，但一些基于DL的视觉跟踪器使用它们来丰富训练样本和目标建模。这些网络可以增加特征空间中的正样本，以解决训练样本的不平衡分布【121】。此外，基于GAN的方法可以学习一般的外观分布，以处理视觉跟踪的自学习问题【136】。此外，回归和判别网络的联合优化将导致利用回归和分类任务【164】。

2.1.5 Custom Networks

受特定深度体系结构和网络层的启发，现代基于DL的方法结合了广泛的网络，如AE、CNN、RNN、SNN，以及用于视觉跟踪的深度RL。其主要动机是利用其他网络的优势来弥补普通方法的不足。主要动机和贡献分类如下：

计算复杂性问题：如前所述，这个问题限制了实时应用程序中在线跟踪器的性能。为了控制基于网络的自定义视觉跟踪器的计算复杂度， TRACA [120]和AEPCF [171]方法使用AE对原始的传统深度特征进行压缩。EAST [181]自适应地采用浅特征用于跟踪简单帧，或者采用昂贵的深特征用于挑战帧【181】，并且TRACA [120], CFSRL [145]，和AEPCF [171]利用DCF计算效率。

模型更新：为了在跟踪过程中保持目标模型的稳定性，提出了不同的更新策略，例如CFSRL [145]并行更新多个模型，DRRL [166]引入LSTM以利用长期时间相关性。并且AEPCF [171]利用长期和短期更新方案来提高跟踪速度。为防止模型更新错误和漂移问题， RDT [184]将视觉跟踪公式修订为连续的决策过程，以便下一次本地化的最佳目标模板。此外，使用RL [183]有效学习好的决策策略是另一种进行模型更新或忽略决策的技术。

训练数据有限：软、非代表性训练样本在出现遮挡、模糊、大变形时，会干扰视觉跟踪。AEPCF [171]利用密集循环采样方案来防止由有限的训练数据引起的过拟合问题。SINT++ [58]通过正样本生成网络（PSGN）和硬正变换网络（HPTN）生成正样本和硬训练样本，在不需要大量训练数据的情况下，可以高效地训练DNN。部分标记的训练样本由动作驱动的深度跟踪器[176]、【177】使用。此外，当有限注释数据可用时， P-Track [183]使用主动决策来交互地标记视频，同时学习跟踪器。

搜索策略：根据定义，视觉跟踪方法估计下一帧搜索区域中的新目标状态，给定第一帧中的初始目标状态。最佳搜索区域的选择取决于迭代搜索策略，通常不依赖于视频内容，而且是启发式、暴力和手工设计的。尽管经典的搜索策略基于滑动窗口、均值移位或粒子滤波，但最先进的基于DL的视觉跟踪器利用基于RL的方法来学习数据驱动的搜索策略。为了彻底探索感兴趣的区域并选择最佳目标候选者，行动驱动的跟踪机制[176]、【177】考虑目标上下文变化并积极地追求目标移动。此外，ACT和DRRL通过动态搜索过程【110】和粗到细的验证【166】提出了基于RL的实用搜索策略，以满足实时需求。

利用附加信息：为了通过利用运动或上下文信息来增强目标模型，DCTN [138]建立双流网络，SRT [87]采用多方向RNN来学习视觉跟踪期间目标的进一步依赖性。为了对相关信息进行编码以获得更好的定位，先前的语义信息和跟踪建议由循环卷积网络【180】建模。此外， DRL-IS [179]引入了Actor-Critic网络来有效地估计目标运动参数。

决策：在线决策对基于DL的可视化跟踪方法的性能有重要影响。最先进的方法试图通过将RL纳入基于DL的方法而不是手工设计的技术来学习在线决策。为了获得有效的决策策略， P-Track [183]最终利用活动代理中的数据驱动技术来决定跟踪、重新初始化或更新流程。此外， DRL-IS [179]利用基于RL的原则方法根据目标状态选择敏感动作。此外，还提出了一个动作预测网络来调整视觉跟踪器的连续动作，以确定最佳超参数，以学习最佳动作策略并作出令人满意的决策【182】。

2.2 网络利用

粗略地讲，DNN用于视觉跟踪的主要利用有两种，包括在部分相关数据集上重用预先训练的模型或利用深度特征进行视觉跟踪，这相当于训练DNN用于视觉跟踪。

2.2.1 模型重用或深度

利用深现特征是将深现特征的力量转移到传统的视觉跟踪方法的最简单方法。这些特性提供了视觉目标的通用表示，并帮助视觉跟踪方法构建更稳健的目标模型。关于拓扑，DNN包括非线性层的简单多层堆栈（例如， AlexNet [34], VGGNet [35], [36]）或有向无环图拓扑（例如， GoogLeNet [37], ResNet [128], SSD [198]，暹罗卷积神经网络【199】），它允许设计更复杂的深度体系结构，包括具有多个输入/输出的层。这些跟踪器的主要挑战是如何完全受益于通用表示。不同的方法使用各种特征图和模型，这些特征图和模型主要在ImageNet数据集【39】的大规模静止图像上预先训练，用于对象识别任务。许多方法研究了预训练模型的性质，并探索了深度特征在传统框架中的影响（见表1）。因此，基于DL的方法[59]、[61]、[64]、[140]、[157]、【200】优选同时利用语义和细粒度深度特征。【201】深度特征的融合也是这些方法的另一个动机，这些方法由不同的技术执行，以利用多分辨率深度特征[59]–[61]、[64]、[69]、[83]、[109]、[129]、[130]、[143], [152], [172]，以及后期深度特征与浅特征的独立融合【109】。利用运动信息[92], [106], [172], [202]，以及为视觉跟踪任务[61]、【154】选择适当的深度特征是基于DL的方法的另外两个有趣的动机。基于DL的基于深度现成特征的可视跟踪器的详细特征如表1所示，不用说，这些方法的网络输出是深度特征图。

在这里插入图片描述

2.2.2 用于视觉跟踪的深层特征

新方法的一个趋势是，如何设计和训练用于视觉跟踪的DNN。由于不同任务的目标不一致，使用深度现成特征限制了视觉跟踪性能。此外，离线学习的深度特征可能无法捕获目标变化，并且倾向于过度适应初始目标模板。因此，DNN接受大规模数据集培训，专门化网络用于视觉跟踪目的。此外，在视觉跟踪中应用微调过程，可以调整网络参数，产生更精细的目标表示。然而，由于启发式固定的迭代次数和有限的可用训练数据，微调过程非常耗时，并且容易过度拟合。如表2至表4所示，这些基于DL的方法通常通过离线训练或在线训练或两者来训练预先训练的网络（即骨干网络）。

在这里插入图片描述

2.3 网络训练

现有基于DL的视觉跟踪方法主要利用端到端学习，通过应用基于梯度的优化算法来训练/重新训练DNN。然而，这些方法在离线网络训练、在线微调、计算复杂度、训练数据不足、过拟合问题以及无监督训练利用无标记样本等方面存在差异。先前综述论文[51]–[53]中的网络训练部分同时考虑了FEN和EEN，尽管FEN只是为其他任务进行预训练，而且没有视觉跟踪的训练程序。本次调研中，基于DL的方法分为离线预训练、在线训练、离线和在线两种，用于可视化跟踪。这些方法的训练细节如表2至表4所示。

2.3.1 仅离线训练

大多数基于DL的视觉跟踪方法仅对网络进行预训练，以提供通用的目标表示，并降低由于训练数据和固定假设不均衡而导致过度拟合的高风险。为了调整视觉跟踪任务的学习过滤器权重，专门网络在大规模数据上训练，不仅利用更好的表现形式，而且通过防止视觉跟踪期间的训练来达到可接受的跟踪速度（见表2）。

2.3.2 仅在线训练

为了区分评估视频中可能被视为目标的看不见目标，一些基于DL的视觉跟踪方法，利用整个或部分DNN的在线训练，根据目标外观的多样性自适应网络参数。因为这个过程很耗时。对于大规模训练数据的离线训练和预训练模型用于表示跟踪特定目标的不充分区分，表3所示的方法直接使用DNN的训练和在线推理过程。然而，这些方法通常利用一些策略来避免过拟合问题和分歧。

2.3.3 离线和在线训练

为了利用DNN的最大容量进行视觉跟踪，表4中所示的方法同时使用离线和在线训练。离线学习和在线学习特征被称为共享表示和特定域表示，它们主要能区分目标与前景信息或类内干扰因素。由于视觉跟踪是一个困难和挑战性的问题，基于DL的视觉跟踪器试图同时利用特征可移植性和在线域自适应。

2.4 网络目标

在训练和推理阶段之后，基于DL的视觉跟踪器基于网络目标函数对给定目标进行定位。因此，基于DL的视觉跟踪方法分为基于分类、基于回归或基于分类和基于回归两种方法。这种分类是基于目标函数的已在视觉跟踪方法中使用的DNN（见图3）；因此，本小节不包括利用现有深度特征的方法，因为这些方法不设计和训练网络，并且通常使用DNN进行特征提取。

2.4.1 基于分类的目标函数

在图像检测等其他计算机视觉任务的驱动下，基于分类的视觉追踪方法采用对象建议方法，从搜索区域中提取出数百个候选/建议 BB。这些方法旨在通过将建议分为目标类和背景类来选择高分候选区域。这种二分类包括来自不同类和移动模式下的视觉目标，以及单独的序列，包括具有挑战性的场景。由于这些方法在分类中受到重视，因此在相同标记目标存在的情况下，对视觉目标进行追踪容易产生漂移问题。另外，追踪目标的任意外观可能会导致识别具有不同外观的不同目标时出现问题。因此基于分类的视觉跟踪方法的性能也与其目标提出方法有关，而目标提出方法通常会产生相当数量的候选BB。另一方面，最近基于DL的方法利用此（分类）目标函数对BB采取最佳optimal action [58], [166], [176]–[179], [181]。

2.4.2 基于回归的目标函数

由于视觉追踪估计空间具有连续的本能，基于回归的方法通常通过最小化正则化最小二乘函数，直接对后续帧中的目标进行定位。通常，需要大量的训练数据来有效地训练这些方法。基于回归的方法的主要目标是细化L2或L1损失函数的公式，例如在学习过程中利用收缩损失[108]，建模回归系数和补丁可靠性以高效优化神经网络[127]，或应用成本敏感损失来提高无监督学习效果[162]。

2.4.3 分类和回归目标函数

为了同时利用前景背景/类别分类和岭回归（即正则化最小二乘目标函数），一些方法同时使用基于分类和回归的目标函数进行视觉追踪（见图三），其目的是弥合觉追踪的最近追踪与连续定位过程之间的差距。通常，这些方法使用基于分类的方法来找到与目标最相似的目标提议，然后通过BB回归方法[55], [68], [75], [87], [101], [110]–[112], [123], [137], [153], [168], [173]细化（regression，调整）估计区域。为了提高效率和准确性，对目标区域进行分类评分，优化回归/匹配函数[56], [57], [134], [145], [146], [156], [157], [160], [163], [164], [167], [179]，分类输出主要针对候选区域的置信度、前景检测、候选窗口响应、动作等进行推断。

2.5 网络输出

根据DL的方法根据其网络输出分为六大类（见图2和表2至表4），即置信度图（也包括评分图、响应图、投票地图 score map, response map, and voting map）、BB（也包括旋转BB）、目标得分（也包括目标提高概率、验证得分、相似度得分、分层得分），动作，特征图、分割掩码。基于DL的方法根据网络目标生成不同的网络输出来估计或调整估计的目标位置。

2.6 利用相关滤波的优势

基于DCF的方法旨在了解一组鉴别滤波器，这些滤波器与一组训练样本在频域上的元素相乘来确定空间目标位置。由于DCF与复杂的技术相比，具有竞争力的追踪性能和计算效率，因此基于DL的视觉追踪器使用相关滤波器的优点。这些方法根据它们如何使用整个DCF框架或某些优点（如其目标函数或相关过滤器/层）来利用DCF优势来分类。相当多的视觉追踪方法基于DCF框架中深度特征的集成（见图三）。这些方法旨在提高目标表示对具有挑战性的属性的鲁棒性，而其他方法则试图提高相关滤波器（ [93]），相关层（ [125], [141], [148], [161], [170]），相关滤波器的目标函数（ [80], [81], [102], [128], [156], [162]）的计算效率。

3. 可视化跟踪基准数据集

视觉追踪基准数据集被引入，为单目标追踪算法提供公平和标准化的评估。追踪数据集包含视频序列，这些视频序列不仅包括不同的目标类别，而且具有不同的持续时间和挑战属性。这些数据集包含大量视频序列、帧、属性和类（或簇），这些属性包括光照变化（IV），尺度变化（SV），遮挡（OCC），变形（DEF），运动模糊（MB），快速运动（FM），平面内旋转（IPR），平面外旋转（OPR），视距（OV），背景杂物（BC），低分辨率（LR），宽高比变化（ARC），摄像机运动（CM），全遮挡（FOC），局部遮挡（POC），相似物体（SOB），视点变化（VC），光线（LI），表面覆盖（SC），镜面（SP），透明度（TR），形状（SH），运动平滑（MS），运动相干（MCO），混淆（CON），低对比度（LC），变焦（ZC），长持续时间（LD），阴影变化（SHC），闪光（FL），弱光（DL），相机抖动（CS），旋转（ROT），快速背景变化（FBC），运动变化（MOC），物体颜色变化（OCO），场景复杂度（SCO），绝对运动（AM），尺寸（SZ），相对速度（RS），干扰器（DI），长度（LE），快速相机运动（FCM）和大/小物体（SLO）。表5比较了视觉追踪数据集的特征、无监督训练中缺少标记数据的存在以及数据集的部分重叠。通过不同的评估协议，现有的视觉追踪基准评估视觉追踪器在现实场景中的准确性和鲁棒性。均质化评估协议有利于直观的比较和发展视觉追踪器。下面简要介绍最流行的视觉追踪基准数据集和评估指标。

在这里插入图片描述

3.1 可视追踪数据集

第一个物体追踪基准数据集之一，称为OTB2013[185]，由51个完全标注的视频序列开发，以解决基于少数视频序列或初始条件或参数不一致的追踪结果报告的问题。OTB2015[186]是一个扩展的OTB2013数据集，包含100个常用视频序列，目的是进行无偏性能比较。为了在颜色序列上提供视觉追踪算法的性能，Temple Color 128（TColor128或TC128）[187]收集了129个完全标注的视频序列，其中78个与OTB数据集不同，但其属性与OTB属性相同。The Amsterdam library of ordinary videos (ALOV) 数据集已经被收集，以涵盖各种视频序列和属性。通过强调具有挑战性的视觉追踪场景，ALOV数据集由304个短视频和10个长视频组成。视频序列从Youtube真实视频中选取，难度为13级。ALOV的视频按照其属性之一进行了分类（表5），尽管在OTB数据集里，每个视频都用几个视觉属性进行了注释。

无人机123（UAV123）[188]提供了稀疏低空无人机追踪数据集，包含了专业级无人机拍摄的真实合成高清视频序列。安装在小型低成本无人机和无人机模拟器上的板式摄像机。为了追踪行人和刚性物体，新加坡国立大学（NUS）人和rigid（刚性？）物体（NUS-PRO）数据集[189]不仅提供了来自YouTube的365个视频序列在12个具有挑战性的因素下，而且还标注了每个帧中被遮挡对象的水平，没有遮挡、部分遮挡和全遮挡标签。它由五个主要类别(即脸，行人，运动员，刚性物体，长序列)和十六个子类别(包括，帽子，面具，采访，政治家，太阳镜，篮球，体操，手球，赛车，足球，网球，飞机，船，汽车，直升机，摩托车)组成，并且它们主要由移动的相机捕捉。通过更高的帧率(240帧/秒)摄像机，the need for speed（NFS）数据集[190]，提供来自真实场景的100个视频序列，系统地调查与视觉跟踪器的实时分析相关的权衡带宽限制。这些视频要么是用手持的iPhone/iPad相机拍摄的，要么是YouTube视频。此外，它包含了广泛的视觉目标，包括车辆、人、脸、动物、飞机和船。

VOT数据集[40]-[46]受大型数据集与有用数据集不平等所驱动，旨在从现有的视觉追踪数据集中提供多样化且足够小的数据集。并每帧通过可旋转的BB和视觉特性来标注它们。为了快速、直观地评价不同的视觉追踪方法，VOT包括可视跟踪交换(TraX)协议[197]，该协议不仅可以准备数据、运行实验、进行分析，还可以检测跟踪失败(即丢失目标)，并在每次失败后5帧重新初始化跟踪器，以评估跟踪的鲁棒性。无人机跟踪基准(DTB)[191]是无人机捕获的数据集，由70个不同的RGB视频组成，由于摄像机的突然运动，目标位置发生了大量位移。这个数据集主要关注跟踪人和汽车，其目标是聚焦于非静止或慢速摄像机的视觉跟踪器运动模型的性能，后者具有更高的自由度。尽管野外存在一些小的、饱和的跟踪数据集，这些数据集大多用于目标检测任务，但大规模的TrackingNet基准数据集[192]已被提议来适当地为深度视觉跟踪器提供数据。它包括500个原创视频，超过1400万个直立的BB标注，密集的时间注释数据，丰富的对象类分布，以及通过YouTube视频采样的真实场景。TrackingNet的训练集和测试集分别由30132个视频序列和115个视频序列组成，在视频长度、BB分辨率、运动变化、纵横比、属性分布等方面提供了相同的目标类分布。

为了长期跟踪频繁消失的目标，OxUvA数据集[193]从YouTubeBoundingBoxes(或YTBB)[203]中选择了366个视频序列(14小时的视频)来提供具有连续属性的开发和测试集。带注释的缺席标签表示目标不存在于框架中。此外，该数据集还包括连续属性，它们的数量已经通过BB注释和元数据测量。BUAA-PRO数据集[194]是一种基于分段的基准数据集，用于解决BBs中不可避免的非目标元素问题。它由NUS-PRO的150个视频序列组成，其中主要包括刚性物体(即飞机、船、汽车、直升机和摩托车)、运动员(包括篮球、体操、手球、赛车、足球和网球)和行人三大类。它不仅利用了与NUS-PRO相同的属性，而且还利用了基于分段掩模版本的基于级别的遮挡属性(例如，没有遮挡，部分遮挡和完全遮挡)。大规模单目标跟踪(LaSOT)基准数据集[196]的发展是为了解决视觉跟踪数据集规模小、缺乏高质量、标注密集、视频序列短、类别偏置等问题。对象类别来自ImageNet和一些视觉跟踪应用程序(如无人机)，每个类别都有相同数量的视频。根据Pareto原则(80%用于训练，20%用于测试)，将LaSOT数据划分为训练和测试子集，分别包含1120个(2.3M帧)和280个(690K帧)视频序列。被称为GOT-10k[195]的大型高多样性基准数据集包含了来自WordNet[204]语义层次结构的超过1万段视频，这些视频分为训练集、验证集和测试集。视频序列被分类到563类移动的对象和87类运动，以覆盖尽可能多的具有挑战性的模式在现实世界的场景。GOT-10k具有类似于OxUvA的信息属性。

3.2 评估指标

为了对大型数据集进行实验比较，视觉追踪方法采用性能度量和性能图两种基本评价类别对视觉跟踪方法进行了评价。这些度量标准简要描述如下。

3.2.1 性能测量

为了反映视觉跟踪器的几个观点，提出了各种性能指标。这些措施试图直观地解释性能比较方面的补充措施的准确性，鲁棒性和跟踪速度。下面对这些措施进行简要的研究。

中心定位误差（CLE）：CLE定义为目标精确的真位置与视觉跟踪方法估计位置之间的平均欧氏距离。CLE是最古老的度量，它不仅对数据集注释敏感，而且不考虑跟踪失败，而且忽略了目标BB并导致重大错误。

精度：为了获得视觉跟踪精度，首先计算重叠分数为：
$S=\frac{|b_t∩b_g|} {|b_t∪b_g|}$
其中
$b_g,b_t,∩,∪,|.|$
分别表示真实区域BB，预测区域，交集算子，并集算子，和结果区域中的像素数。

通过考虑一定的阈值，重叠分数表示视觉跟踪器在一帧内的成功。然后，当视觉跟踪器的估计值与真实值有重叠时，通过跟踪过程中的平均重叠值来计算跟踪精度。这个度量联合考虑位置和区域来测量估计目标到失败的漂移率

鲁棒性/失败的分数：鲁棒性或失败分数定义为在跟踪任务期间，当跟踪器丢失(或漂移)可视目标时，需要重新初始化的次数。当重叠分数降至零时检测到失败。

预期平均重叠(EAO)：该得分被解释为准确性和稳健性得分的组合。给定一个
$N_s$
帧长序列，EAO分数通过以下公式进行计算：
$\widehat{Φ}_{N_s} = \left\langle \frac{1}{N_s} \sum_{i=1}^{N_s} Φ_i \right\rangle$
其中
$Φ_i$
被定义为每帧重叠直到序列结束的平均值，即使失败导致零重叠。

Area under curve (AUC，曲线下面积): AUC评分根据预定义的阈值定义了平均成功率(在0到1之间标准化)。为了根据视觉跟踪方法的整体表现对其进行排序，AUC评分将视觉跟踪方法的AOS按顺序进行总结。

3.2.2 性能图

为了了解视觉跟踪方法的性能，通常会根据不同的阈值对不同的方法进行评估，以提供更直观的定量比较。下面总结了这些度量标准：

精度图：给定每个不同阈值的cle，精度图显示了估计位置最多与地面真实位置具有特定阈值的视频帧的百分比。

成功图：根据每个阈值计算出的不同精度，成功图测量的是估计的重叠帧和ground-truth帧的重叠大于一定阈值的帧的百分比。

预期平均重叠曲线：对于单个长度的视频序列，预期平均重叠曲线是由特定区间的值范围所决定的。其中该区间范围在：
$[N_{lo},N_{hi}],\widehat{Φ} = \frac {1}{N_{hi}-N_{lo}}\sum_{N_s=N_o}^{N_{hi}}\widehat{Φ}_{N_s}$

一次通过评估（OPER）：OPER是一个有监督的系统，可以连续测量跟踪方法的准确性，当故障发生时重新初始化跟踪方法。同时，SRER对SRE的许多评估也是如此。

在这里插入图片描述

4. 实验分析

为了分析目前最先进的视觉跟踪方法的性能，我们在四个众所周知的数据集OTB2013[185]、OTB2015[186]、VOT2018[45]和LaSOT[196]上定量比较了45种不同的方法。由于页面限制，所有实验结果都可以在https://github.com/MMarvasti/Deep-Learning-for-Visual-Tracking-Survey上公开获得。实验中包含的45个基于DL的跟踪器如表6所示。ECO、CFNet、TRACA、DeepSTRCF和C-RPN被视为基线跟踪器，用于比较不同数据集上的性能。所有的评估都是在Intel I7-9700K 3.60GHz CPU和32GB RAM上执行的，MatConvNet toolbox[205]使用NVIDIA GeForce RTX 2080Ti GPU进行计算。OTB和LaSOT工具包根据众所周知的精度和成功图对视觉跟踪方法进行评估，然后根据AUC评分对方法进行排序[185]，[186]。有关VOT2018数据集的性能比较,视觉追踪器已经评估基于TraX评估协议[197]使用三个主要措施的准确性、鲁棒性,和EAO提供Accuracy-Robustness (AR)图,预计平均曲线重叠,显示和根据5大挑战视觉属性[45],[206],[207]的排序图。

4.1 定量比较

根据图4所示的结果来看,在精度度量方面，前5名的视觉跟踪方法分别是VITAL,MDNet, DAT, ASRCF,和SiamDW-SiamRPN（在OTB2013数据集上）,SiamDW-SiamRPN, ASRCF,VITAL,SiamRPN + +,和MDNet （在OTB2015数据集上）,和C-RPN，MDNet /VITAL,SiamFC / StructSiam,ASRCF,分别和DSiam（在LaSOT数据集上）。在成功度量方面，OTB2013数据集上的ASRCF、VITAL、MDNet、DAT和SiamRPN++， OTB2015数据集上的SiamRPN++、SANet、ASRCF、VITAL和MDNet，以及LaSOT数据集上的C-RPN、MDNet、VITAL、ASRCF和siamamfc分别取得了最好的性能。在VOT2018数据集上(见图5和表7)，精度测量排名前5位的可视化跟踪器是SiamMask、SiamRPN++、DaSiamRPN、C-RPN和siamdwi -SiamRPN；而UPDT、LSART、DeepSTRCF、SiamMask和SiamRPN++/DRT分别具有最好的稳健性。另一方面，在OTB2013数据集上，基于精度-成功度量的最佳视觉跟踪方法（见图4）是 VITAL, MDNet, ASRCF, DAT, 和SiamRPN++。在OTB2015数据集上是SiamRPN++, ASRCF, VITAL, SiamDW-SiamRPN, and MDNet。在LaSOT数据集上则是C-RPN, MDNet, VITAL, SiamFC, and ASRCF/StructSiam。在VOT2018数据集上，SiamRPN++, SiamMask, UPDT, DRT和DeepSTRCF是EAO得分最佳的追踪器。SiamRPN++, UPDT, MCPF, LSART和DeepSTRCF的AUC得分最好。 SiamRPN, SiamRPN++, CFNet, DAT, DCFNet则是最快的视觉追踪器。根据结果(即图4、图5、表7)，在不同的视觉跟踪数据集上，能够重复其理想性能的最佳视觉跟踪方法是VITAL [121], MDNet [68], DAT [137], ASRCF [155], SiamDW-SiamRPN [56], SiamRPN++ [55], C-RPN [157], StructSiam [157], SiamMask [57], DaSiamRPN [111], UPDT [109], LSART [127], DeepSTRCF [122], and DRT [126]。这些方法将在第4.3节进行研究。

在这里插入图片描述

4.2 每个数据集最具挑战的属性

继VOT挑战[43]-[45]为视觉跟踪指定了最具挑战性的属性之后，本调查不仅确定了基于VOT数据集上基于DL方法的这些属性，而且还首次提供了OTB和LaSOT数据集上最具挑战性的属性。这些属性由VOT上每个属性的中值精度和鲁棒性决定，或者等价于OTB2015和LaSOT数据集上的每个属性的中值精度和成功决定。表8显示了每个基准数据集的第一个到第五个具有挑战性的属性。另外，图5到图7研究了处理这些属性的最佳跟踪器。根据表8的结果，VOT2018数据集上最具挑战性的属性是OCC、SV和IV（根据健壮性度量），以及OCC、MOC和IV（根据鲁棒性度量）。基于精度度量，OTB2015上的OV、OCC和LR以及LaSOT数据集上的FM、OV和DEF是视觉跟踪方法最具挑战性的属性。最后，从成功度度量来看，OTB2015数据集上的DEF、OV和LR和LaSOT数据集上的FM、OV和FOC是最具挑战性的。总之，OCC、OV、FM、DEF、IV和LR被选为最具挑战性的属性有效地影响了基于DL的视觉跟踪方法的性能。

另一方面，（针对OCC、SV和IV属性），对VOT2018数据集最准确的视觉跟踪方法分别是SiamRPN++[55]、SiamMask[57]和SiamMask。此外，（针对OCC、MOC和IV属性）, DRT[126]、UPDT[109]和SiamMask [57]/CFCF[144]可视化跟踪器是对VOT2018数据集最健壮的跟踪器。在成功度量方面，SiamRPN++[55]是处理DEF和OV属性的最佳可视化跟踪方法，而Siam-MCF[117]是处理OTB2015数据集上LR视频的最佳可视化跟踪方法。ASRCF[155]、ECO[94]和siamdwi - siamrpn[56]在面对OTB-2015数据集上的OV、OCC和DEF属性的精确度量方面是最好的跟踪器。除了FM属性(MDNet[68]在精度度量方面是最好的方法)，C-RPN[157]在LaSOT基准数据集的其他具有挑战性的属性(在精度和成功度量方面)上具有优越的性能。根据整体比较和基于属性的比较，C-RPN、MDNet和VITAL是LaSOT数据集的前3个跟踪器。

VOT2018数据集为单个视频序列提供基于框架的属性，而每个视频序列都为OTB和LaSOT数据集注释了多个属性。基于这种差异，我们研究VOT2018基于属性的比较，根据具体情况推断出最优策略。如图5所示，在其他方法中，基于dcf的方法失败次数较少，而基于snn的方法在估计的BBs和真实值之间获得了更多的重叠。基于SiamRPN的方法(即[55]-[57]，[111])通过采用更深更宽的backbone networks(包括分类和回归分支)，准确处理CM、IV、MC、OCC或SC属性下的场景，以下策略可以提高基于DL的方法在真实场景特定条件下的稳健性。通过考虑手工制作和深度特征的融合[109]、[122]、[126]、时间正则化项[122]、可靠性项[126]、数据增强[109]，利用ResNet-50模型[109]，基于DCF的方法对CM属性具有良好的鲁棒性。要有效地处理IV属性，重点研究目标与其背景之间的分辨能力是首要问题。诸如训练全卷积网络的相关滤波代价函数、空间感知KRR和空间感知CNN，以及采用半监督视频对象分割等策略在出现显著IV时提高了基于DL追踪器的鲁棒性。为了更好地处理MC和OCC属性，基于DCF和基于CNN的方法表现最好。而基于snn的方法借助区域方案子网和方案改进，可以在严重尺度变化下稳健地估计出最接近的BB。

在这里插入图片描述

《Deep Learning for Visual Tracking: A Comprehensive Survey》

《Deep Learning for Visual Tracking: A Comprehensive Survey》

摘要：

介绍：

本篇文章的主要贡献概述如下：

根据比较，提出了以下意见：

2.深度视觉跟踪方法的分类

本节将介绍的三个主要组成部分：目标表示/信息、训练过程和学习过程。然后，提出了基于DL方法的综合分类法。

2.1 网络架构

2.1.1 卷积神经网络（CNN）

2.1.2 Siamese Neural Network (SNN)

2.1.3 Recurrent Neural Network (RNN)

2.1.4 Generative Adversarial Network (GAN)

2.1.5 Custom Networks

受特定深度体系结构和网络层的启发，现代基于DL的方法结合了广泛的网络，如AE、CNN、RNN、SNN，以及用于视觉跟踪的深度RL。其主要动机是利用其他网络的优势来弥补普通方法的不足。主要动机和贡献分类如下：

2.2 网络利用

粗略地讲，DNN用于视觉跟踪的主要利用有两种，包括在部分相关数据集上重用预先训练的模型或利用深度特征进行视觉跟踪，这相当于训练DNN用于视觉跟踪。

2.2.1 模型重用或深度

2.2.2 用于视觉跟踪的深层特征

2.3 网络训练

2.3.1 仅离线训练

2.3.2 仅在线训练

2.3.3 离线和在线训练

2.4 网络目标

2.4.1 基于分类的目标函数

2.4.2 基于回归的目标函数

2.4.3 分类和回归目标函数

2.5 网络输出

2.6 利用相关滤波的优势

3. 可视化跟踪基准数据集

3.1 可视追踪数据集

3.2 评估指标

3.2.1 性能测量

3.2.2 性能图

4. 实验分析

4.1 定量比较

4.2 每个数据集最具挑战的属性

猜你喜欢