Fully-Convolutional Siamese Networks for Object Tracking

摘要

任意对象跟踪的问题传统上通过仅在线学习对象外观的模型来解决,使用视频本身作为唯一的训练数据。尽管这些方式取得了成功,但它们的在线方式本身就限制了他们可以学习的模型的丰富性。最近若干利用深度卷积网络的表达能力的尝试已经进行了。然而,当事先不知道要跟踪的对象时,有必要在线执行随机梯度下降以适应网络的权重,这会严重损害系统的速度。在这篇论文中,我们为ILSVRC15数据集中的一个基本跟踪算法配备了一个新的完全卷积连体网络,用于端到端训练,用于视频中的目标检测。我们的跟踪器以超出实时的帧速率运行,尽管极其简单,但在多个基准测试中实现了最先进的性能。

1、介绍

我们考虑在视频中跟踪任意目标的问题,其中目标仅由第一帧中的矩形标识。由于可以请求算法跟踪任何任意目标,因此不可能提前收集好数据并训练特定的检测器。
多年来,这种情况最成功的范例是使用从视频本身中提取的示例,以在线方法学习目标的外观模型。这在很大程度上归功于TLD ,Struck和KCF等方式的证明。然而,使用仅来自当前视频的数据的明显缺陷是只能学习相对简单的模型。虽然计算机视觉中的其他问题已经越来越普遍地采用从大型监督数据集训练的深度卷积网络,但监督数据的稀缺性和实时操作的约束,阻碍了在这种一个视频学习一个探测器的范式中应用深度学习。
最近的一些研究旨在使用预先训练的深度网络来克服这种限制,该网络是针对不同但相关的任务而学习的。这些方式要么使用网络的内部表示作为特征应用"浅’(shallow)方式(例如相关滤波器),要么执行SGD(随机梯度下降)以微调网络的多个层。然而浅层方式的使用并未充分利用端到端学习的优势,并且在跟踪期间应用SGD以实现最新结果的方式却无法实时运行。
我们提出一种替代方式:深度网络被训练来解决在初始的离线阶段中的更一般的相似性学习问题,然后在跟踪期间简单地在线评估该功能。本文的关键贡献是证明这种方式在速度远远超过帧速率要求的现代跟踪基准测试中表现出了非常具有竞争力的性能。具体来说,我们训练一个孪生(Siamese)网络,以在更大的搜索图像中定位示例图像。另一个贡献是一种新颖的孪生(Siamese)网络结构,它对搜索图像进行完全卷积:使用双线性层实现密集和有效的滑动窗口评估,并对其两个输入进行互相关运算。
我们认为相似性学习方式相对被忽略了,因为在跟踪社区中无法找到大量标记数据集。实际上,直到最近,可用数据集仅包含几百个已发布的视频。然而,我们认为在视频(以下称为ImageNet视频)中出现用于物体检测的ILSVRC数据集可以训练这样的模型。此外,训练和测试使用来自同一领域的视频进行跟踪的深度模型的公平性是一个争议点,因为VOT委员会最近已经禁止这样做。我们展示了我们的模型从ImageNet视频域推广到ALOV/OTB/VOT 域,使得跟踪基准的视频可以保留用于测试目的。

2、深度相似性学习以进行跟踪

可以使用相似性学习来处理学习怎样跟踪任意目标。我们建议学习函 $f(x,z)$ 数，其将示例图像 $z$ 与相同大小的候选图像 $x$ 进行比较,并且如果两个图像描绘相同的对象则返回高分,否则返回低分。为了在新图像中找到对象的位置,我们可以穷尽地测试所有可能的位置,并选择与对象的过去的外观具有最大相似性的候选者。在实验中,我们将简单地使用对象的初始外观作为示例。将从具有标记的对象轨迹的视频的数据集中学习函数 $f$ 。
鉴于它们在计算机视觉方面的广泛成功,我们将使用深度卷积网络作为函数 $f$ 。使用Siamese架构解决了使用深度卷积网络进行相似性学习的问题。孪生(Siamese)网络对两个输入应用相同的变换 $\varphi$ ,然后根据使用另一个函数 $f(z,x)=g(\varphi (z),\varphi (x))$ 来组合它们的表示。当函数是简单距离或相似性度量时,函数可以被认为是嵌入。深度孪生(Siamese)网络先前已应用于面部验证/关键点描述符学习和一次性字符识别等任务。
在这里插入图片描述
图1：全卷积连体架构。关于搜索图像，我们的体系结构是完全卷积的。输出是标量值得分图，其维数取决于搜索图像的大小。这样一来，就可以为搜索图像中所有翻译后的子窗口计算相似度函数。在此示例中，得分图中的红色和蓝色像素包含相应子窗口的相似性。最佳观看颜色。

2.1全卷积连体架构

我们提出了一种相对于候选图像完全卷积的孪生(Siamese)架构。我们说如果一个函数是平移不变的,那么它就是完全卷积的。为了给出更精确的定义,引入 ${{L}_{\tau }}$ 来表示平移不变算子 $({{L}_{\tau }}x)[u]=x[u-\tau ]$ 。如果对于任何平移 $\tau$ 有： $h({{L}_{k\tau }}x)={{L}_{\tau }}h(x)$ 则将信号映射到信号的函数是有着整数步长的完全卷积的函数(当是有限信号时,只需要保持输出的有效区域。)
完全卷积网络的优点是,我们可以提供更大的搜索图像作为网络的输入,而不是相同大小的候选图像,它将在一次评估中计算密集网格上所有转化的子窗口(sub-windows 这里指的应该是候选区域)的相似性。为了实现这一点,我们使用卷积嵌入函数 $\varphi$ 并使用互相关层组合得到的特征图:
$f(z,x)=\varphi (z)*\varphi (x)+b\prod$ 其中 $b\prod$ 表示在每个位置取值为 $b\in R$ 的信号。该网络的输出不是单个分数,而是在有限网格 $D\subset {{\mathbb{Z}}^{2}}$ 上定义的分数图,如图1所示。请注意,嵌入函数的输出是具有空间支持的特征映射,而不是普通向量。同样的技术已应用到了现代立体匹配的工作中。
在跟踪期间,我们使用以目标的先前位置为中心的搜索图像。最大分数相对于分数图中心的位置乘以网络中设定的步长,可以得到目标在帧与帧之间的位移。通过组装小批量的缩放图像,在单个前向通道中搜索多个标度。
使用互相关组合特征图并在较大的搜索图像上对网络一次评估,在数学上等同于使用内积去组合特征图,并且独立地评估每个在转换的子窗(sub-windows)上的网络。然而,互相关层提供了一种非常简单的方式,可以在有卷积网络库的框架内有效地实现此操作。这在测试期间是有用的,同时它也可以在训练期间被利用。

2.2用大的搜索图像进行训练

用大的搜索图像进行训练我们采用判别方式,用正负对和使用逻辑函数作为损失函数对来训练网络。
$l(y,v)=\log (1+\exp (-yv))$ 其中 $v$ 是单个样本-候选对的实值得分, $y\in \{-1,\text{+1 }\!\!\}\!\!\text{ }$ 是其真实的标签。通过使用包含示例图像和更大搜索图像的对,我们在训练期间利用了网络的完全卷积性质。这将产生一个由得分 $v$ 生成的图 $D\to R$ ,每对都能有效地产生许多样本。我们将分数图的损失定义为个体损失的平均值。
$L(y,v)=\frac{1}{|D|}\sum\limits_{u\in D}{l(y[u],v[u])}$ 要求分数图中每个位置都有真实标签 $y[u]\in \{-1,\text{+1 }\!\!\}\!\!\text{ }$ 。通过将随机梯度下降应用于问题来获得卷积网络的参数 $\theta$ 。
$y[u]\in \{-1,\text{+1 }\!\!\}\!\!\text{ }$
在这里插入图片描述
图2:从同一视频中提取的训练对：示例图像和来自同一视频的相应搜索图像。当子窗口超出图像范围时，缺失部分将填充平均RGB值。
通过提取以目标为中心的示例和搜索图像,从注释视频的数据集中获得对,如图2所示。图像是从视频的两个帧中提取的,这两个帧都包含对象并且最多相隔 $T$ 帧, 训练期间忽略对象的类。在不破坏图像的纵横比的情况下对每个图像内的对象的比例进行归一化。如果得分图的元素在中心的半径 $R$ 内(考虑网络的步幅 $k$ ),
$y[u]=\begin{cases}& +1\text{ }if\text{ }k||u-c||\le R \\ &-1\text{ }others \\ \end{cases}$ 则认为分数图的元素属于正例。分数图中的正负示例的损失被加权以消除类的不平衡。
由于我们的网络是完全卷积的,因此不存在它为中心的子窗口学习偏差的风险。我们认为考虑以目标为中心的搜索图像是有效的,因为最困难的子窗口以及对跟踪器性能影响最大的子窗口可能是与目标相邻的子窗口。
注意,由于网络是对称的 $f(x,z)=f(z,x)$ 因此它实际上也是示例中的完全卷积。虽然这允许我们在理论上对不同的对象使用不同尺寸的示例图像,但我们假设统一尺寸,因为它简化了小批量实现。但是,这种假设将来可以放宽。
2.3用ImageNet Vedio来进行跟踪
2015年版本的ImageNet大规模视觉识别挑战赛引入了ImageNet视频数据集，作为视频挑战赛中新物体检测的一部分。要求参与者对30种不同类别的动物和车辆进行分类和定位。培训和验证集共包含近4500个视频，总共有超过一百万个带注释的帧。如果与VOT，ALOV和OTB中标记的序列（总共少于500个视频）的数量相比，这一数字尤其令人印象深刻。我们认为，该数据集不仅应因其庞大的规模而引起跟踪社区的极大关注，而且还因为它所描绘的场景和物体与规范跟踪基准中发现的场景和物体不同。因此，它可以安全地用于训练深度跟踪模型，而不会过度适合这些基准测试中使用的视频领域。

2.4实际考虑

数据集规划 在训练期间,我们采用127 x 127的示例图像,并搜索255 x 255像素的图像。加上附加边缘,使得图像缩放后例如边界框(Bounding Box)具有固定的区域。更确切地说,如果紧密边界框(tight bounding box)具有大小(w,h)并且上下文边距是p,则选择比例因子 $s$ 使得缩放矩形的面积等于常数:
$s(w+2p)\times s(h+2p)=A$ 我们使用示例图像 $A=127^{2}$ 的区域并将上下文的量设置为平均维度的一半 $p=(w+h)/4$ 。每帧的示例和搜索图像都被提取出来以避免在训练期间调整图像大小。在这项工作的初步版本中,我们采用了一些启发式方式来限制从中提取训练数据的帧数。相反,对于本文的实验,我们使用了ImageNet Video的所有4417个视频,其中包含超过200万个标记的边界框。
网络架构 我们采用的内嵌函数 $\varphi$ 的体系结构类似于Krizhevsky等人的网络的卷积部分。参数和激活函数的尺寸在表1中给出。在前两个卷积层之后使用最大池化层。除了conv5(最后一层)之外,每个卷积层都遵循ReLU非线性。在训练期间,在每个线性层之后立即插入批量标准化。最终特征表示的步幅是8。该设计的一个重要方面是在网络中没有引入填充。虽然这是图像分类中的常见做法,但它违反了方程式的完全卷积性质。

表1：卷积嵌入函数的体系结构，类似于Krizhevsky等人的网络的卷积阶段。通道图属性描述每个卷积层的输出和输入通道数
在这里插入图片描述
跟踪算法 由于我们的目的是证明我们完全卷积的Siamese网络的功效及其在ImageNet Video上训练时的泛化能力,我们使用极其简单的算法来执行跟踪。与更复杂的跟踪器不同,我们不更新模型或维护过去外观的记忆,我们不包含额外的线索,如光流或颜色直方图,我们不会使用边界框回归来改进我们的预测。然而,尽管他很简单,但是当配备我们的在线学习的相似性度量时,跟踪算法实现了令人惊讶的良好结果。
在在线部分,我们确实结合了一些基本的时间约束:我们只在大约其先前大小的四倍的区域内搜索对象,并且在分数图中添加余弦窗口以惩罚大的位移。通过处理搜索图像的若干缩放版本来实现通过比例空间来进行跟踪。规模的任何变化都会受到惩罚,当前规模的更新也会受到抑制。

3、相关工作

最近的一些研究试图针对物体跟踪问题训练递归神经网络(RNN)。甘等人,通过训练RNN预测每个帧中目标的绝对位置,Kahou等人类似地训练RNN,使用不可靠的注意机制进行跟踪。这些方式尚未在现代基准测试中显示出有竞争力的结果,但它无疑是未来研究的一个有希望的途径。我们注意到,通过将孪生(Siamese)网络解释为在长度为2的序列上训练和评估的展开的RNN,可以在此方式和我们的方式之间绘制一个有趣的平行线。因此,孪生网络可以作为重复模型的强大初始化。Denil等人,使用粒子滤波器来跟踪目标,该粒子滤波器使用学习距离度量来比较当前外观与第一帧的外观。但是,它们的距离度量与我们的距离度量差异很大。它们不是比较整个物体的图像,而是计算固定点间的距离(目标边界框内的小区域的局部)。为了学习距离度量,他们训练受限制的玻尔兹曼机器(RBM),然后使用隐藏激活之间的欧几里德距离进行两次固定。虽然RBM是非监督的,但他们意见在对象的图像中心随机固定训练RBM以进行检测。这必须在线执行或在离线阶段执行,并了解要跟踪的对象。在跟踪对象时,他们学习了一种随机策略,用于选择特定于该对象的注视,使用不确定性作为奖励信号。除了MNIST数字的合成序列之外,该方式仅在面部和人物跟踪问题上得到定性证明。
虽然为每个新视频从头开始训练深度卷积网络是不可行的,但有几项工作已经研究了在测试时从预先训练的参数进行微调的可行性。SO-DLT和MDNet都在一个类似的检测任务中训练卷积网络,然后在测试时使用SGD学习一个探测器,其中包含从视频中提取的例子跟踪作为探测器学习范例。由于在许多示例中评估前向和后向传递的计算负担,这些方式不能以帧速率操作。利用卷积网进行跟踪的另一种方式是使用预先训练的卷积网络的内部表示作为特征来应用传统的浅层方式。虽然这种风格的跟踪器如Ma等人的DeepSRDCF和FCNT取得了很好的成果,由于卷积网络表示的维度相对较高,它们无法实现帧率运算。
在我们自己的工作的同时,其他一些作者也提出了通过学习图像对的函数来使用目标跟踪的网络。 Held等人介绍了GOTURN,其中训练了一个网络,以便从两个图像直接回归到第一个图像中所示的对象的第二个图像中的位置。预测矩形而不是位置具有以下优点:可以在不借助于详尽评估的情况下处理尺度和纵横比的变化。然而,它们的方式的缺点是它不具有对第二图像的平移的内在不变性。这意味着必须在所有位置显示网络示例,这是通过相当大的数据集扩充来实现的。Chen等人训练了将示例和较大搜索区域映射到响应图的网络。然而,由于最终的层是完全连接的,因此它们的方式也缺乏对第二图像的平移的不变性。与Held等人类似,这是不方便的,因为训练集必须代表所有对象的所有翻译。他们的方式被命名为YCNN用于网络的Y形状。与我们的方式不同,它们无法在训练后动态调整搜索区域的大小。陶等人意见训练一个孪生(Siamese)网络,以识别与初始物体外观相匹配的候选图像位置,方式称为SINT(Siamese INstance search Tracker)。与我们的方式相反,它们不采用相对于搜索图像完全卷积的架构。相反,在测试时,他们在Struck中对不同半径的圆均匀地采样边界框。此外,它们结合光流和边界框回归来改善结果。为了提高系统的计算速度,他们采用感兴趣区域(RoI)池化来有效地检查许多重叠的子窗口。尽管进行了这种优化,但每秒2帧,整个系统仍然远非实时。
上面训练视频序列的所有竞争算法：MD-Net、SINT、GOTURN使用属于基准使用的相同ALOV/OTB/VOT域的训练数据。由于担心过度拟合基准测试中的场景和对象,这种做法已经在VOT挑战中被征用。因此,我们工作的一个重要贡献是证明可以在不使用与测试集相同的分布的视频的情况下训练网络以进行有效的对象跟踪。

4、实验

4.1实现细节

训练通过最小化来找到内嵌函数的参数,使用MatConvNet直接进行SGD。参数的初始值遵循高斯分布,根据改进的Xavier方式进行缩放。训练进行了50多个时期,每个时期由50,000个采样对组成。使用尺寸为8的小批量估计每次迭代的梯度,并且在每个周期几何地从10^-2到10-5对学习速率进行退火。
跟踪如前所述,在线阶段是刻意的简约。初始对象外观的嵌入函数(embedding function) t(z)被计算一次,并且被卷积地与后续帧的子窗口进行比较。我们发现通过简单的策略(如线性插值)在线更新(特征表示)样本并没有获得太多的性能,因此我们将其保持固定。我们发现,使用双三次插值从17 x 17到272 x 272在分数图进行上采样,由于原始地图相对粗糙,因此可以实现更准确的定位。
为了处理比例变化,我们还搜索五个比例的对象{-2,-1,0,1,2},并通过线性插值更新比例,系数为,以提供阻尼。为了证明我们的实验结果可重复,我们共享训练和跟踪代码以及脚本来生成精选数据集。在配备单个NVIDIA GeForce GTX Titan X和英特尔酷睿i7-4790K的机器上,我们的完整在线跟踪管道分别以每秒86和58帧的速度运行,分别搜索3和5级。

4.2评估

我们评估了我们的简单跟踪器的两个变体:SiamFC(Siamese Fully-Convolutional)和SiamFC-3s,它们搜索3个等级而不是5个等级。

4.3 OTB-13数据集

OTB-13 基准考虑了不同阈值下的平均每帧成功率：如果跟踪器的估计值与地面真相之间的相交联合（IoU）高于某个阈值，则跟踪器将在给定帧中成功。然后，针对此阈值的不同值，比较跟踪器的成功率曲线下的面积。除了所报告的跟踪器外，在图3中，我们还与主要计算机视觉会议上展示的最新的七个最新跟踪器进行了比较，它们可以以帧速率运行：Staple，LCT，CCT，SCT4 ，DLSSVM NU，DSST和KCFDP。考虑到序列的性质，仅针对此基准，我们在训练过程中将25％的对转换为灰度。所有其他超参数（用于训练和跟踪）均已固定。
在这里插入图片描述
图3：OTB-13 基准的OPE（一次通过评估），TRE（时间鲁棒性评估）和SRE（空间鲁棒性评估）的成功图。 CCT，SCT4和KCFDP的结果仅在撰写本文时才可用于OPE。

4.4 VOT数据集

对于我们的实验，我们使用视觉对象跟踪（VOT）工具包的最新稳定版（标签vot2015-final），该工具包对从356个库中选择的序列进行跟踪器评估，从而很好地表示了七个不同的挑战性情况。许多序列最初是在其他数据集中显示的（例如ALOV 和OTB ）。在基准内，跟踪器会在故障发生后的五帧内自动重新初始化，这被认为是在估计边界框和地面实况之间的IoU变为零时发生的。
VOT-14 结果。我们将SiamFC的方法与参加2014年VOT挑战赛的10个最佳追踪器进行了比较。我们还包括Stapleand GOTURN，这两个最新的实时跟踪器分别在CVPR 2016和ECCV 2016上展示。跟踪器是根据两种性能指标进行评估的：准确性和鲁棒性。前者计算为平均IoU，而后者则以故障总数表示。这些可以深入了解跟踪器的行为。图4显示了准确度-鲁棒性图，其中最佳跟踪器更靠近右上角。
VOT-15 结果。我们还将我们的方法与2015年版的40个最佳参与者进行了比较。在这种情况下，将使用准确性和故障数量的原始分数来计算预期的平均重叠量度，该平均量度表示发生故障后无需重新初始化的平均IoU。图5以预期的平均重叠率说明了最终排名，而表2报告了该挑战的15个排名最高的跟踪器的得分和速度。
在这里插入图片描述
图4：VOT-14精度-稳健度图。最佳跟踪器靠近右上角。

VOT-16结果 在撰写本文时，尚无2016年版的结果。但是，为了便于与我们的方法进行早期比较，我们报告分数。对于SiamFC和SiamFC-3，我们分别获得了0.3876和0.4051的总体预期重叠（基线和无监督实验之间的平均值）。请注意，这些结果与VOT-16报告有所不同，因为我们参加挑战赛是这项工作的初步版本。
尽管其简单性，我们的方法还是对最新的实时跟踪器进行了改进（图3和4）。此外，它在具有挑战性的VOT-15基准测试中胜过大多数最佳方法，同时也是唯一一种实现具有实时帧速率的方法（图5和表2）。这些结果表明，仅在ImageNet Video上由我们的全卷积Siamese网络学习的相似性度量的表达能力就足以实现非常强大的结果，可与之媲美或优于最新的方法，后者通常是几个数量级。幅度较慢。我们相信，通过使用跟踪社区经常采用的方法（例如模型更新，边界框回归，微调，内存）来扩展简约的在线跟踪管道，可以获得相当高的性能。

4.5数据集尺寸

表3说明了用于训练Siamese网络的数据集的大小怎样极大地影响性能。当将数据集的大小从5％增加到100％时,预期的平均重叠(在VOT-15上测量)从稳定地提高到。这一发现表明,使用更大的视频数据集可以进一步提高性能。实际上,即使200万个有监督的边界框看起来很庞大,也不应忘记它们仍然属于相对适中数量的视频,至少与通常用于训练网络的数据量相比。
在这里插入图片描述图5：VOT-15在预期平均重叠方面的排名。仅报告了最好的40个结果。

5、总结

在这项工作中,我们偏离了跟踪中使用的传统在线学习方式,并展示了一种侧重于在离线阶段学习强嵌入的替代方式。与它们在分类设置中的使用不同,我们证明了对于跟踪应用,Siamese全卷积深度网络能够更有效地使用可用数据。这既可以在测试时进行,也可以通过执行有效的空间搜索,也可以在训练时进行,其中每个子窗口都能有效地代表一个有用的样本,而且成本很低。实验表明,深度嵌入为在线跟踪器提供了自然丰富的功能来源,并使简单的测试时策略能够很好地运行。我们相信这种方式是对更复杂的在线跟踪方式的补充,并期望未来的工作能够更彻底地探索这种关系。

表2：我们提出的方法以及VOT-15挑战赛中表现最好的15个追踪器的原始评分，重叠部分和报告的速度。在可行的情况下，我们将与作者报告的速度进行比较，否则（*）我们以EFO单位报告VOT-15结果[12]的值，该值大致对应于fps（例如NCC跟踪器的速度为140 fps)和160 EFO）。
在这里插入图片描述

参考文献

[1]https://www.editsprings.com/Home/ArticleDetail?sort=34963218
[2]Bertinetto L, Valmadre J, Henriques J F, et al. Fully-Convolutional Siamese Networks for Object Tracking[C]. european conference on computer vision, 2016: 850-865