摘要

虽然不常用，但相关过滤器可以跟踪复杂的物体通过旋转，遮挡等分散注意力超过目前状态的20倍艺术技巧。最古老，最简单的相关性过滤器使用简单模板，通常在应用时失败跟踪。更多现代方法，如ASEF和UMACE表现更好，但他们的培训需求是不太适踪。视觉跟踪需要强大过滤器可以从单个帧动态训练适应目标对象的外观变化。

本文提出了一种新型的相关滤波器，a最小平方误差输出和（MOSSE）滤波器，在初始化时产生稳定的相关滤波器使用单帧。基于MOSSE过滤器的跟踪器对照明，比例，姿势和变化的变化非常强大非刚性变形，同时以每帧669帧运行第二。基于峰值- tosidelobe检测到阻塞ratio，使跟踪器能够暂停和恢复当对象重新出现时它停止的地方。

注意：本文包含其他数字和内容被排除在CVPR 2010之外以满足长度要求。

1简介

视觉跟踪在视频中有许多实际应用处理。当目标位于一帧中时视频，在后续跟踪该对象通常很有用帧。目标成功的每个帧tracked提供有关身份的更多信息以及目标的活动。因为跟踪更容易与检测相比，跟踪算法可以使用更少的计算资源比在每个上运行对象检测器帧。

视觉跟踪近年来受到了很多关注。已经提出了许多强大的跟踪策略，可以容忍目标外观的变化通过复杂的动作追踪目标。最近的例子包括：增量视觉跟踪（IVT）[17]，健壮基于碎片的跟踪（FragTrack）[1]，基于图形判别学习（GBDL）[19]和多实例学习（MILTrack）[2]。虽然有效，这些技术并不简单; 他们经常包括复杂的外观模型和/或优化算法，结果很难跟上25到30帧每秒钟由许多现代相机产生（见表1）。

图1：该图显示了MOSSE滤波器的结果基于具有挑战性的视频序列的跟踪器。这个跟踪器有能够快速适应比例和旋转变化。它是还能够检测跟踪故障并从中恢复闭塞。

在本文中，我们研究了一种更简单的跟踪策略。目标外观通过自适应相关来建模过滤器和跟踪是通过卷积执行的。幼稚用于创建过滤器的方法，例如裁剪模板从图像中，为目标产生强烈的峰值也错误地回应背景。结果他们是对目标外观的变化不是特别稳健并且无法挑战跟踪问题。平均值合成精确过滤器（ASEF），无约束最小值平均相关能量（UMACE）和最小值平方误差的输出和（MOSSE）（引入本文）生产的外观更加坚固的过滤器改变并更好地区分目标和背景。如图2所示，结果是一个更强大的峰值，转化为更少的漂移和丢失的轨道更少。传统上，ASEF和UMACE过滤器已经离线训练并用于对象检测或目标识别。在这项研究中，我们有修改了这些技术，以便在线和在线培训用于视觉跟踪的自适应庄园。结果是跟踪具有最先进的性能，保留了很多基于相关性的速度和简单性做法。

尽管该方法简单，但基于跟踪在修改的ASEF，UMACE或MOSSE过滤器上执行在旋转，比例，照明和局部的变化下闭塞（见图1）。峰值与旁瓣比率（PSR），它测量相关峰的强度，可用于检测遮挡或跟踪失败停止在线更新，并重新获取轨道对象重新出现，具有类似的外观。更普遍，这些高级相关滤波器可实现性能与提到的更复杂的跟踪器一致较早; 然而，基于过滤器的方法已经结束速度提高20倍，每秒可处理669帧（见表1）。

表1：该表比较了MOSSE的帧速率跟踪器发布其他跟踪系统的结果。

本文的其余部分安排如下。第2节评论相关的相关滤波技术。第3节介绍MOSSE过滤器以及它如何用于创建基于鲁棒过滤器的跟踪器。第4节介绍了实验来自[17]的七个视频序列的结果。最后，第5节将重新审视本文的主要发现。

2背景

在20世纪80年代和90年代，许多变体的相关性过滤器，包括合成判别函数（SDF）[7,6]，最小方差综合判别函数（MVSDF）[9]，最小平均相关能量（MACE）[11]，最优权衡过滤器（OTF）[16]和最小平方误差综合判别功能（MSESDF）[10]。这些过滤器是训练有关不同外观的目标物体的例子并强制执行硬约束，使过滤器总会产生相同高度的峰值。最相关的是MACE，它产生尖峰和高峰PSR中。

在[12]中，发现了SDF的硬约束像MACE这样的基于滤波器会导致失真容忍问题。解决方案是消除硬约束而是要求过滤器产生高平均值相关反应。这种新型的“无约束”相关滤波器称为最大平均相关高度（MACH）导致MACE的变体被称为UMACE。

引入了一种称为ASEF [3]的新型相关滤波器一种调整特定任务的过滤器的方法。前面的方法只指定一个峰值，ASEF指定每次培训的完整相关输出图片。 ASEF在眼睛定位方面表现良好[3]和行人检测[4]。不幸2在这两项研究中，ASEF都需要大量的培训
图像，这使得视觉跟踪太慢。本文通过介绍减少了这一数据要求ASEF的正则化变体，适用于视觉跟踪。

3基于相关滤波器的跟踪

基于过滤器的跟踪器使用模拟对象的外观在示例图像上训练过滤器。目标是最初的基于中心的小跟踪窗口选择在第一帧中的对象上。从这一点开始，跟踪和过滤培训一起工作。目标是通过在搜索窗口中关联过滤器来跟踪下一帧; 与最大值对应的位置相关输出中的值表示新位置目标。然后基于在线更新执行在那个新的位置。

为了创建快速跟踪器，在中计算相关性傅立叶域快速傅里叶变换（FFT）[15]。第一，输入图像的2D傅里叶变换：F = F（f），和滤波器：计算H = F（h）。卷积定理指出相关性成为元素傅里叶域中的乘法。使用⊙符号明确表示逐元素乘法和*表示复共轭，相关性表格：

相关输出被转换回空间使用逆FFT的域。这个瓶颈过程是计算前向和反向FFT，以便整个过程的上限时间为O（P log P）其中P是跟踪窗口中的像素数。

在本节中，我们将讨论过滤器的组件基于追踪器。 3.1节讨论了执行的预处理在跟踪窗口上。第3.2节介绍MOSSE过滤器是一种改进的构造方式来自少量图像的稳定相关滤波器。第3.3节显示了如何使用正则化来生成更稳定的UMACE和ASEF滤波器。第3.4节讨论了用于在线更新的简单策略过滤器。

3.1预处理

FFT卷积算法的一个问题是图像和过滤器映射到拓扑结构一个圆环。换句话说，它连接左边缘图像的右边缘和顶部到底部。在卷积期间，图像通过环形旋转空间而不是像在空间域中那样进行翻译。人为地连接图像的边界引入了影响相关输出的伪像。

通过预处理来减少这种影响[3]中概述的步骤。首先，转换像素值使用有助于降低对比度的日志功能照明情况。像素值被标准化平均值为0.0，范数为1.0。最后，图像乘以渐变的余弦窗口将边缘附近的像素值减小到零。这也是它的好处是它更加强调靠近中心目标。

3.2 MOSSE过滤器

MOSSE是一种用于生成类似ASEF的滤波器的算法从较少的训练图像。首先，它需要一套培训图像fi和训练输出gi。一般来说，gi可以采取任何形状。在这种情况下，gi是从地面生成的事实是它具有紧凑的（σ= 2.0）2D高斯在训练图像fi中以目标为中心的形状峰值。培训在傅里叶域进行，以利用简单的元素之间的关系输入和输出。如上一节所述，我们定义大写变量Fi，Gi和过滤器H to是他们的小写对应物的傅里叶变换。除法是按元素进行的。

找到将训练输入映射到所需的过滤器训练输出，MOSSE找到一个最小化的滤波器H.实际输出之间的平方误差之和卷积和卷积的期望输出。这种最小化问题采取以下形式：

最小化平方误差和（SSE）的想法在输出上并不新鲜。实际上，优化问题等式3中的几乎与优化问题相同在[10]和[12]中提出。不同之处在于在这些作品中，人们认为目标总是如此小心地以fi为中心，输出（gi）是固定的对于整个训练集，而定制每个gi
是ASEF和MOSSE背后的基本理念。在里面跟踪问题目标并不总是居中，而且gi中的峰值移动以跟随fi中的目标。在更一般的
case gi可以有任何形状。例如，在[4] fi包含多个目标，gi有多个对应峰。

图3：未正则化显示的结果。

解决这个优化问题并不是特别的困难，但确实需要一些照顾，因为功能被优化是复杂的真正有价值的功能变量。首先，H的每个元素（由ω和ν索引）因为所有的操作都可以独立解决傅立叶域以元素方式执行。这涉及到用Hων和。来重写函数H *ων。然后，部分W.R.T. H *ων设定为零，同时将Hωv视为一个独立变量[13]。

通过求解H *一个闭合形式的表达式找到MOSSE过滤器：

完整的推导在附录A中等式5有一个有趣的解释。分子是输入和期望之间的相关性输出和分母是能量谱输入。

从等式5，我们可以很容易地显示UMACE是MOSSE的一个特例。 UMACE定义为H * = D-1m *其中m是包含FFT的向量
平均中心裁剪训练图像，D是包含平均能谱的对角矩阵训练图像[18]。因为D是对角矩阵，乘以其逆基本上执行逐元素划分。用当前重写时符号，UMACE采用以下形式：

图4：在此图中，所有三个过滤器都使用了初始化调整正则化参数时，相同的八个图像。在所有三个滤波器都具有高PSR。

但是，UMACE要求目标居中网络连接。可以使用相关来执行接收。如果我们将gi定义为Kronecker delta（峰值为1）目标中心和其他地方为零）这将基本上重新定位目标并计算UMACE过滤器。区别这和传统的实现之间是在这里我们裁剪然后翻译，传统的地方方法翻译然后庄稼。

为了表明MOSSE产生的滤波器比ASEF，进行了一项实验，改变了用于训练滤镜的图像数量。过滤器是通过应用随机小仿射扰动来初始化到视频第一帧的跟踪窗口。第二帧上的PSR用作度量过滤质量。图3显示MOSSE产生更好在少量图像窗口上训练时过滤。原因将在下一节中讨论。

3.3 ASEF的正规化

ASEF采用略微不同的方法来最小化相关变换中的错误。事实证明当只有一个训练图像Fi和一个输出时图像Gi，有一个产生零误差的滤波器。那过滤器称为精确过滤器，可以通过求解等式1找到：

几乎总是在一个图像上训练的精确过滤器过度拟合那个形象。当应用于新图像时，即过滤器经常会失败。平均用于产生滤波器这更为一般。平均的动机来了来自Bootstrap Aggregation [5]其中输出弱分类器可以被平均以产生更强的分数分类。通过一些操纵，方程式为ASEF过滤器可以显示为：

如果只有一个图像用于训练，则MOSSE和ASEF两者都产生精确的过滤器。

在训练小数字时，ASEF滤波器不稳定图像因为方程中的元素划分当训练中的频率变为8时变得不稳定图像包含非常少的能（或分母是接近于零）。平均大量精确过滤器补偿这个问题并产生强大的ASEF过滤器。因为MOSSE的分母是总和它的能量超过了更多的图像，很少产生数量较少，因此更稳定。

或者，可以使用正则化来校正低能量频率并产生更稳定的ASEF过滤器。这是通过向每个添加一个小值来执行的能谱中的元素。 Fi Fi被替换用FiFi+ 是正则化参数。

正规化类似于来自的结果OTF理论通常与之结合使用UMACE过滤器。这个结果表明增加了能量背景噪声的频谱与训练的频谱相同图像将产生具有更好的噪声容限的滤波器[16]。这里我们基本上添加了白噪声。

图4显示了适当调整锟的效果正则化所有滤波器都产生良好的峰值并且应该足够稳定以产生良好的轨道。

3.4过滤初始化和在线更新

等式8和5描述了如何构造滤波器初始化。训练集使用随机仿射变换产生八个小扰动（fi）初始帧中的跟踪窗口。训练输出（gi）也会产生峰值对应目标中心。

在跟踪期间，目标通常可以改变外观通过改变其旋转，比例，姿势，通过移动不同的照明条件，甚至是非刚性的形变。因此，过滤器需要快速适应为了跟踪对象。运行平均值用于这个目的。例如，ASEF过滤器从中学习帧i计算如下：

和MOSSE过滤器：

其中η是学习率。这更加重视最近的帧，让前一帧的效果衰减随着时间的推移呈指数级增长。在实践中我们发现了这一点η= 0.125允许过滤器快速适应外观在保持稳健过滤器的同时进行更改。

3.5故障检测和PSR

如前所述，简单测量峰值强度称为峰值与旁瓣比（PSR）。至计算PSR，相关输出g被分成峰值是最大值和旁瓣是除了11×11窗口之外的其余像素在峰值附近。然后将PSR定义为gmax-μslσsl其中gmax是峰值，μsl和σsl是旁瓣的平均值和标准差。

根据我们的经验，PSACE适用于UMACE，ASEF和MOSSE通常在正常跟踪条件下范围在20.0和60.0之间，表明非常强峰。我们发现当PSR下降到7.0左右时它表示对象被遮挡或跟踪失败了。对于Naive实现PSR介于两者之间3.0和10.0并不适用于预测轨道质量。

4评估

最初是基于实时MOSSE的跟踪系统通过网络摄像头在实时视频上创建和评估。即时的反馈使得测试的微小变化变得容易跟踪器配置和执行定性分析各种目标和跟踪的跟踪器性能条件。这些测试提供了宝贵的见解跟踪器的操作和帮助产生快速和本文介绍的鲁棒跟踪器。

使用自适应相关滤波器的视觉对象跟踪（Mosses）1(翻译）

摘要

1简介

2背景