用于视觉跟踪的层次化卷积特性

摘要

视觉目标跟踪是一项具有挑战性的工作，由于目标对象的变形、突然运动、背景杂波和遮挡等因素，使目标对象的外观发生明显变化。本文利用在对象识别数据集上训练的深度卷积神经网络提取的特征来提高跟踪准确性和鲁棒性，最后一个卷积层的输出对目标的语义信息 （为什么叫做语义信息？） 进行编码，这些表示对显著的外观变化具有鲁棒性，然而，它们的空间分辨率过于粗糙，无法精确定位目标。相反，较早的卷积层提供了更精确的定位，但是对于外观的变化不那么一成不变。我们将卷积层的层次结构解释为图像金字塔表示的非线性对应层，并利用这些多层次的抽象用于视觉跟踪。具体来说，我们自适应地学习每个卷积层上的相关滤波器来编码目标的外观，分层推断每个层定位目标的最大响应。在大规模基准数据集上的大量实验结果表明，该算法优于最先进的方法。

参考：
- 【深度学习系列】卷积神经网络CNN原理详解(一)——基本原理
- 【深度学习系列】卷积神经网络详解(二)——自己手写一个卷积神经网络
- 卷积神经网络(CNN)学习笔记1：基础入门
- Deep Learning（深度学习）学习笔记整理系列之（一）
- [Deep Learning] 神经网络基础
- 一文弄懂神经网络中的反向传播法——BackPropagation
- 十分钟看懂图像语义分割技术
- 剑桥构建视觉“语义大脑”：兼顾视觉信息和语义表示

1 介绍

视觉目标跟踪是计算机视觉中的一个基本问题，具有广泛的应用前景，视觉跟踪的典型场景是跟踪未知目标对象，由第一帧中的包围框指定。虽然近几十年来有了很大的进展，但是视觉跟踪仍然是一个具有挑战性的问题，主要是由于遮挡、变形、突然运动、光照变化、背景杂波等引起的较大外观变化。近年来，基于卷积神经网络(CNNs)的特征在广泛的视觉识别任务中显示了最先进的结果。因此，了解如何最好地利用CNNs中丰富的特性层次结构来实现准确的视觉跟踪非常有意义。
现有的基于深度学习的跟踪器通常在估计的目标位置周围绘制正样本和负样本，以逐步学习训练在CNN提取的特征上的分类器。这样的做法引发了两个问题，第一个问题是在最近的目标识别算法中使用神经网络作为在线分类器，其中只使用最后一层的输出来表示目标。对于高级视觉识别问题，有效的方法是使用最后一层的特性，因为它们与分类级语义关系最密切，并且对类内变量和精确位置等复杂的变量大多数不变。然而，视觉跟踪的目的是精确定位目标，而不是推断其语义类别。因此，只使用最后一层的特性并不是目标的最佳表示。第二个问题与提取训练样本有关。训练一个鲁棒分类器需要大量的正样本和负样本，这在视觉跟踪中是不可用的。此外，由于在目标附近采样，正样本和负样本高度相关，因此在确定决策边界时存在模糊性。

在这项工作中：
(i) 我们使用来自CNNs分层的层的特性来解决这两个问题，而不仅仅是最后一层来表示目标;
(ii) 学习自适应相关滤波器，无需采样。
我们的方法建立在这样的观察之上:尽管最后一层CNNs更有效地捕获语义，但它们不足以捕获细粒度的空间细节，例如对象位置。另一方面，较早的层在定位方面是精确的，但是不像图1所示的那样捕获语义。这一发现表明，利用多层CNN特征进行视觉跟踪的推理是非常重要的，因为语义对显著的外观变化具有鲁棒性，而空间细节对于精确定位是有效的。我们利用了最近CNNs技术的进步和经典计算机视觉问题多层次推理方法的层次特征。例如，从图像金字塔的粗水平计算光流是有效的，但是为了获得精确和详细的流场需要更精细的水平。为了获得最佳结果，通常采用粗到细的搜索策略。

(图1.　一个典型CNN模型的卷积层，例如，在特性层次结构中提供多级抽象。较早层的特征保留了较高的空间分辨率，使用类似于Gabor filters[4]响应映射的低级视觉信息进行精确定位。另一方面，后一层的特性捕获了更多的语义信息，而较少的细粒度空间细节。我们的方法利用最后一层的语义信息来处理大的外观变化，通过使用早期层的特征来精确定位，减少漂移。)

基于这种联系，我们学习了一个自适应相关滤波器，该滤波器覆盖了从每个CNN层提取的特征，并使用这些多层次的相关响应映射来协同推断目标位置。将特征的所有移位形式作为训练样本，将其回归到具有较小空间带宽的高斯函数，从而减轻了二值判别分类器训练的采样不确定性。

我们做了以下三个贡献:
首先，我们建议使用CNNs的丰富特性层次结构作为可视化跟踪的目标表示，同时利用语义和细粒度细节处理大型外观变化，避免漂移。
其次，我们自适应地学习每一个线性相关滤波器CNN层，以减轻采样模糊。我们使用从粗到精的多级相关响应映射来推断目标位置。
第三，我们在一个具有10个基准的大型数据集上进行了广泛的实验

2 相关工作

在本节中，我们将讨论与这项工作密切相关的跟踪方法。我们建议读者在[33,22,26]中阅读关于视觉跟踪的综合评论。

由二进制分类器跟踪

视觉跟踪可以作为一个局部窗口的重复检测问题(被称为通过检测跟踪)，分类器通过在线学习。对于每一帧，我们收集一组正、负训练样本，用于增量学习一个判别分类器，将目标从背景中分离出来。然而，这种抽取样本学习在线分类器的方法存在着抽样模糊问题。样品标记的轻微误差会影响分类器，并逐渐导致跟踪器漂移。为了减轻样本不确定性导致的这些模型更新问题，已经做了大量的工作。这些算法的核心思想在于如何正确地更新分类器以减少漂移。示例包括多实例学习、半监督学习和P-N学习。Zhang等人没有只学习一个分类器，而是将多个分类器组合成不同的学习速率。另一方面，Hare等人表明，使用分类器进行标签预测的目标与跟踪目标(准确的位置估计)和姿态跟踪作为一个联合的结构化输出预测问题没有明确耦合。通过减轻抽样模糊问题，这些方法在最近的基准研究中表现良好。我们用相关滤波器解决了样本模糊问题，其中训练样本回归到高斯函数的软标签而不是二进制标签来进行区分分类器的学习。

通过相关过滤器跟踪

由于采用了快速傅里叶变换（fast Fourier
transforms），具有较高的计算效率，因此视觉跟踪的相关滤波器引起了广泛的关注。基于相关滤波器的跟踪方法将输入特征的所有圆偏移版本（circular-shifted versions）回归到一个目标高斯函数，因此不需要目标外观的硬阈值样本（hard-thresholded samples）。Bolme等人通过学习了亮度通道上的最小输出平方和误差滤波器，以实现快速视觉跟踪。为了大大提高跟踪精度，提出了几个扩展，包括核心化相关滤波器、多维特征、情境学习和规模估计。在这项工作中，我们建议以类似于现有方法的方式学习多维特征上的相关过滤器。主要区别在于使用学习的CNN特征而不是手工制作的特征（例如，HOG 或颜色属性），我们在分层卷积层上构建多个相关滤波器，而不是现有方法那样只有一个单独的滤波器。

由CNN跟踪

视觉表示对于目标跟踪非常重要。许多手工制作的特性被用来表示目标外观，例如子空间表示和颜色直方图。近年来，CNNs在视觉识别问题上取得了长足的进展。Wang和Yeung提出了一种使用多层自动编码器网络的深度学习跟踪器(deep learning tracker, DLT)。这个网络是在80M的微小图像数据集的一部分上以无监督的方式进行预训练的。另一方面，Wang等人提出在视频存储库中学习一个双层神经网络，其中对特征学习施加了暂时的慢度约束。Li等人构建倍数CNN分类器对目标对象的不同实例，以排除模型更新期间的噪声样本。DeepTrack从二进制样本中学习两层CNN分类器，不需要提前训练。 Hong等人使用预先训练好的CNN学习特定目标的显著性地图。我们注意到前面提到的CNN跟踪器都依赖于正面和负面的训练样本，并且只利用了最后一层的特性。与此相反，我们的方法建立在自适应相关滤波器的基础上，该滤波器可以消除带有软标签的密集的、循环移位的样本，有效地减少了采样的模糊性。此外，我们利用多个卷积层的特性对目标外观进行编码。我们使用VGG-Net提取CNN特征，它是在具有分类级别标签的大型ImageNet数据集上训练的。我们还注意到，DLT和DeepTrack方法通过在线微调CNNs更新了外观模型，但是Wang等人和我们的算法使用分类器学习进行模型更新。

3 概述

我们的方法建立在这样的观察之上:CNNs的最后一层编码目标的语义抽象，它们的输出对于外观变化是健壮的。另一方面，早期的层保留了更细粒度的空间细节，因此有助于精确定位。我们显示在图2中一个图像的边缘和可视化水平一步CNN特性在第三,第四,第五卷积和回旋的第五层,层不太有效定位尖锐边界由于其低空间分辨率而第三层是更有用的精确定位。

(图2:具有水平台阶边缘的图像的CNN特征的可视化。在虚线处的三层特性的前三个主要组件是可视化的。注意，conv5-4层由于空间分辨率低，定位步骤边缘的效率较低，而conv3-4层更适合于精确定位。)
我们的目标是充分利用语义和细粒度的细节来进行可视化对象跟踪。图3展示了我们算法的主要步骤:我们学习在每个卷积层的输出上进行自适应线性相关滤波，并对多级相关响应映射进行粗到精搜索，以推断目标的位置。

(图3:提出的算法的主要步骤:给定一幅图像，我们首先在前一帧的估计位置上裁剪搜索窗口。我们使用第三、第四和第五层卷积层作为目标表示。然后将 $i$ 索引的每一层与学习的线性相关滤波器 $w^{(i)}$ 进行卷积，生成响应映射，其最大值的位置表示估计的目标位置。我们搜索多级响应映射以从粗到精的方式推断目标位置。)

4 提出的算法

在本节中，我们首先介绍了在这项工作中使用的CNN特性，学习线性相关过滤器的技术细节，以及粗到细的搜索策略。最后介绍了在线模型的更新。

4.1 卷积特性

我们使用来自CNN的卷积特征图（例如，AlexNet或VGG-Net）来编码目标外观。随着CNN前向传播，来自不同类别的对象之间的语义区分被加强，并且空间分辨率逐渐降低以用于精确定位（也参见图1）。对于视觉对象跟踪，我们对目标对象的准确位置感兴趣。因此，我们忽略完全连接的层，因为它们显示出很小的空间分辨率，即1×1。
由于CNNs中使用的池操作符，随着卷积层深度的增加，空间分辨率逐渐降低。例如,在VGG-Net中 pool5 的卷积的特征图的空间大小的 $7×7$ ,也就是输入图像大小 $224×224$ 的 $\frac{1}{32}$ 。如此低的空间分辨率不足以精确定位目标,我们通过使用双线性插值将每个特征映射调整到一个固定的更大的尺寸来缓解这个问题。设 $h$ 为特征图, $x$ 为上采样特征图，第i个位置的特征向量为:
　　　　　　　　 $x_i = \sum\limits_k\alpha_{ik}h_k$ 　　　　　(1)

其中，插值权值 $\alpha_{ik}$ 分别取决于i和k相邻特征向量的位置。