FlowTrack－End-to-end Flow Correlation Tracking with Spatial-temporal Attention(CVPR2018)

动机：大多数DCF方法仅考虑当前帧的特征，而很少受益于运动和帧间信息。发生遮挡和形变时，时间信息缺失导致性能减低。

本文提出FlowTrack，利用连续帧中丰富的光流信息来改善特征表示和跟踪精度。具体是将光流估计，特征提取，聚合和相关滤波器跟踪制定为网络中的特殊层，从而实现端到端学习。这种在深度学习的框架中联合训练光流和跟踪任务的做法是第一次被提出。

然后在重新定义的间隔处，历史特征图被扭曲(warped)，并在光流信息的引导下和当前的特征图聚合。在自适应聚合时，我们提出一种全新的时空注意机制。这种方法在OTB2013，OTB2015，VOT2015，VOT2016数据集上表现出领先的性能。时空注意机制：在空间注意中，利用空间相似性在平面位置对特征图加权。然后重新加权特征图的通道以考虑时间注意。

同一个物体的不同帧特征可以提供更丰富的信息，例如不同的视角和照明。因此，通过聚合这些特征可以增强跟踪对象的外观特征。但视频的运动会导致同一物体的特征通常在空间上不会跨帧对齐。由于未对准，简单的特征融合甚至会降低性能。

所以在学习过程中对运动建模至关重要。为此，我们提出使用大规模跟踪数据集来训练端到端的流量估计和自适应特征聚合。

本文的贡献主要为三个部分。

1）开发了端到端光流相关性跟踪框架，改善特征表示和跟踪精度。（开创性工作）

2）提出了一种新颖的时空注意机制，可以自适应地聚合变形后的历史特整体和当前特征图。

3）在OTB2013，OTB2015，VOT2015和VOT2016上的实验表明，算法性能可以与当今先进算法抗衡。

算法核心：End-to end flow correlation tracking

整体训练结构：光流相关网络

一、整体训练结构

网络结构：FeatureNet(特征提取模块)、FlowNet、变形模块(warping module)、时空注意机制模块、相关滤波跟踪模块。

整体训练架构采用由历史和当前帧两个分支组成的Siamese网络。在历史分支中，首先由FeatureNet和Flownet提取外观特征和光流特征。然后当前帧(第 t 帧)之前的特定若干帧( T = 6 )在光流信息的引导下，被整合到第 t-1 帧上。同时，设计了一个时空注意模块对整合的特征图加权。在Siamese网络的另一个分支中，只用FeatureNet来提取当前帧的特征图。最后，两个分支被送到后面的相关滤波层训练。所有的模块都是可区分的，并且是端到端的训练。

二、相关滤波层

利用深度卷积特征的判别相关滤波器（DCF）目前在基准测试中表现出良好的性能。可是所选的CNN特征总需要在不相同任务中的预训练结果，并且跟踪系统中各模块是分开学习的，所以跟踪效果不是特别理想。最近，CFNet 和DCFNet 将相关滤波器作为可微分层插入到Siamese框架中，从而进行端到端的特征学习。可训练得到相关滤波器：

上式中帽子符号表示相应变量的离散傅里叶变换F，*表示相应变量的复共轭，D表示通道号，⊙表示Hadamard哈达玛积。

在测试阶段，这些已经训练好的滤波器用于评估在目标预测位置周围的图像块， $\varphi\left ( z \right )$ 表示从上下文的最后一帧的跟踪目标位置提

取的特征图：

为了统一端到端网络中的相关滤波器，将上述方法表示成相关滤波器层。给出特征图的搜索区域 $\varphi\left ( z \right )$ ，损失函数被定义为：

其中 $\tilde{R}$ 是期望的响应，它是以真实目标位置为中心的高斯分布。 θ是整个网络的参数。对自变量 $\varphi \left (x\right )$ 和 $\varphi\left ( z \right )$ 的损失函数为：

导出了反向传播计算方法后，相关滤波器就可以表示为网络中的一个层，在之后都被称为CF层。

此处附上求解相关滤波器的数学推导步骤：

帕塞瓦尔定理，即能量守恒定理（Parseval’s formula）：

常用于：在线性最小二乘问题中，可以使用帕塞瓦尔公式将等式变换到傅里叶域，问题通常可以得到有效地解决。

插：本文的相关滤波层，用到了2016年Martin Danelljan提出的DSST论文中的损失函数求解方法，在此将推导过程详细给出：

损失函数的定义：

其中，h是需要求解的滤波器，f是提取得到的样本的特征图矩阵块，g是样本对应的理想响应值， $\lambda$ 是L2正则项的参数。

为求得使 $\varepsilon$ 尽量小，利用帕塞瓦尔公式将等式转化到傅里叶域，之后利用离散傅里叶变换的相关性质，得到：

上式中的每一项都可以独立地进行最小化，因此通过求解由上式得到的正规方程来解决问题，转化为求解下面的方程：

由矩阵的逆的性质 $\left (xy^{*}+A\right )^{-1}=A^{-1}-\left ( y^{*}A^{-1}x+1\right )^{-1}A^{-1}xy^{*}A^{-1}$ 可得，

三、使用光流信息进行聚合

光流编码两个输入图像之间的对应关系，根据流信息将特征图从相邻帧整合到特定帧上。

$Flow(I_{i},I_{t-1})$ 是通过流网络估计的流场，其将第 i 帧中的位置p投影到指定第 t-1帧中的位置p +δp。通过在特征图中每个通道

的所有位置应用双线性函数来实现变形操作。在特定的通道中变形公式为：

在上式中， $P=(p_{x},p_{y})$ 代表2D空间中的定位， $\delta P=Flow(I_{i},I_{t-1})(P)$ 表示对应位置处的流信息，m是特征图中的第m个通道，

$q=(q_{x},q_{y})$ 是特征图中对应二维空间中的特定位置的枚举，Ｋ是双线性插值的核函数。为使光流信息加入端到端的网络进行训

练，设计 $\varphi _{i\rightarrow t-1}$ 对于 $\varphi _{i}$ 和 $\delta _{p}$ （即 $\delta P=Flow(I_{i},I_{t-1})(P)$ ）流信息的反向传播推导公式为：

当先前帧中的特征映射被整合到指定帧后，就实现了为相同目标提供不同的信息的功能，例如不同视点，变形和变化照明等。

因此，通过聚合这些特征图可以增强跟踪对象的外观特征。聚合结果为：

其中T是预定的间隔，wi→t-1是不同空间位置和特征通道的自适应权重。自适应权重由下面要讲的时空关注机制决定。

四、时空注意机制

自适应权重指示在每个空间位置及时间通道处需要聚合的帧的重要性。在空间位置上，我们采用余弦相似度来衡量待整合特征与从指定的t-1帧提取的特征之间的相似性。在不同的时间通道上，进一步引入时间关注机制来自适应地进行时间通道重校准。

空间注意机制：

空间注意力表示不同空间位置的不同权重。首先，瓶颈子网将φ投影到新的嵌入φe中，然后采用余弦相似性度衡量相似性：

Softmax对每个通道上计算好的余弦相似度值进行权重的归一化操作。使得在空间中，当待整合特征与特定的第t-1帧特征接近时，赋予较大的权重；而当两者相似度较小时，赋予较小的权值。

插：softmax操作的数学本质是一种归一化的指数函数，是对有限项离散概率分布的梯度对数的归一化。它可以将一个含任意实数的 K 维向量 Z 压缩到另一个 K 维实向量 $\sigma \left ( z \right )$ 中，并使得每一个元素的范围都在 $\left ( 0,1 \right )$ 之间，且所有元素之和为１。

时间注意机制：

在空间注意机制中，权值最高的是指定的第 t-1 帧，因为它的特征与自己本身相似度最高，因此进一步提出时间注意机制，通过

自适应地重新校准时间通道来解决这个问题。空间注意机制中的通道数等于聚合帧数T，我们期望通过同时引入时间信息来重新

加权通道的重要性权值。具体地，空间注意机制模块的输出首先通过全局池化层，产生通道方向描述符。然后添加三个全连接

（FC）层，用通过基于通道间依赖性的自我门控机制训练每个通道。然后重新加权原始特征图以生成时间注意模块的输出。

重新配准权重后的效果如下图，第一行和第二行分别表示普通和具有挑战性的场景。左上角为权值，正常场景权重大致相等，而在具有挑战性的场景中，低质量帧权重较小，高质量帧权重较大，这证明时间注意模块重新校准了时间通道帧中的权重。

五、在线跟踪

跟踪网络结构

完成离线训练之后，学习好的网络根据下式进行在线跟踪：

首先，图像通过训练好的FeatureNet和FlowNet网络，然后根据流信息将先前帧的特征映射整合到当前帧。整合的特征图和当前帧的特征图继续送到后面的网络，进行时空关注加权。通过找得分图中的最大响应获得当前目标状态的估计。

模型更新时大多数跟踪方法在每帧或以固定间隔更新模型。但是当跟踪不准确、目标被遮挡或不在视野范围内时，这种策略可能会引入错误的背景信息。因此，本文提出当同时满足标准的峰值与噪声比（PNR）和最大的响应图时，执行模型更新。

六、实验具体细节和结果

实验在四个具有挑战性的跟踪数据集上进行：OTB2013，OTB2015，VOT2015和VOT2016。指标图详见论文。

FeatureNet采用三个卷积层（3×3×128,3×3×128,3×3×96），FlowNet按照论文FlowNet(2015)实现。

空间注意机制是嵌入三个随机初始化的卷积层（1×1×64,3×3×64,1×1×256）。

时间关注机制嵌入三个全连接层（1×1×128,1×1×128,1×1×6）。前两个和最后一个FC层分别是ReLU和Sigmoid。

训练数据为VID，聚合帧数设置为5，0.9的随机梯度下降，0.005的权重衰减λ，训练50代，学习率为 $10^{-5}$ 。

在具有Intel i7 6700 CPU，48 GB RAM，Nvidia GTX TITAN X GPU的MatConvNet环境上实现。

总结

开创性的思路：将运动光流信息整合到端对端的深度网络中，改善跟踪性能。

创新性策略：空间时间注意机制，自适应地调节帧内帧间的权重，使得稳定良好的目标信息在训练网络时有更高的权重。

另外可取之处：模型更新时，不是简单的每帧更新或间隔几帧更新，而是同时利用特征图响应和信噪比信息。

效果：在同等级精度的算法中，跟踪效率较高，达到12帧每秒，但跟踪精度表现一般。