1. 论文信息

论文题目：Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
论文出处：CVPR 2018
论文作者：Qiang Wang等人
在线阅读：http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Learning_Attentions_Residual_CVPR_2018_paper.pdf

2. 概述

本文基于Siamese network网络结构，加入了注意力机制（包括残差注意力、通道注意力和总体注意力），这项注意力机制作为一个layer嵌入到Siamese network网络中，缓解了深度网络训练中的过拟合问题，还提升了网络的判别能力和适应性。

3. 研究思路（重要）

3.1 相关滤波跟踪

相关滤波跟踪的目标函数（岭回归）：

\begin{matrix} (1) & min_{w} {‖ A w - y ‖}_{2}^{2} + λ {‖ w ‖}_{2}^{2} \end{matrix}

$\mathop {\min }\limits_{\bf{w}} \left\| {{\bf{Aw}} - {\bf{y}}} \right\|_2^2 + \lambda \left\| {\bf{w}} \right\|_2^2 \tag {1}$
求解，得：

\begin{matrix} (2) & w = {(A^{T} A + λ I)}^{- 1} A^{T} y \end{matrix}

${\bf{w}} = {\left( {{{\bf{A}}^T}{\bf{A}} + \lambda {\bf{I}}} \right)^{ - 1}}{{\bf{A}}^T}{\bf{y}} \tag {2}$
由于矩阵求逆过程很慢，因此可以将其转换到非线性空间，用对偶形式求解，得：

\begin{matrix} (3) & w = A^{T} α \end{matrix}

${\bf{w}} = {{\bf{A}}^T}{\bf{\alpha }} \tag {3}$
有关相关滤波具体思想介绍，可以参考目标跟踪经典论文 High-Speed Tracking with Kernelized Correlation Filters（KCF），此处不再赘述。

从上述求解公式可以看出，传统相关滤波算法在建模过程中并没有考虑到目标物体图像特征的学习（主流相关滤波方法基本采用了HOG特征、CN特征，或者预训练好的CNN特征，严格来说，对于跟踪算法本身而言，没有特征学习的过程），而仅仅考虑了判别器的在线学习。

小结。传统相关滤波方法的特点：隔断了特征表示与判别学习。

3.2 Siamese netowrk跟踪方法

Siamese网络tracking方法的总体结构图如下所示：
这里写图片描述

基本公式建模：

\begin{matrix} (4) & f (z, x) = φ (z) * φ (x) + b \cdot I \end{matrix}

$f\left( {{\bf{z}},{\bf{x}}} \right) = \varphi \left( {\bf{z}} \right) * \varphi \left( {\bf{x}} \right) + b \cdot {\bf{I}} \tag {4}$

从上述公式(4)可以看出，与相关滤波方法不同，Siamese网络需要在函数 $\varphi \left( \cdot \right)$ 中同时进行特征学习和判别学习，其判别结果体现在 $f\left( {{\bf{z}},{\bf{x}}} \right)$ ，另一方面，结合示意图可和公式以看出，Siamese网络的训练，只利用了单一样本 $\bf{z}$ 。

小结。传统Siamese网络跟踪方法的特点：

同时进行特征学习和判别学习
训练样本比较少，容易形成过拟合

3.3 CFNet跟踪方法

为了解决传统Siamese网络的少样本容易形成过拟合问题，CFNet在Siamese网络中引入循环矩阵（虚拟的多样本），并且借助循环矩阵的优势提升计算性能。但是和标准相关滤波方法类似，CFNet中也不可避免地带来了边界效应（boundary effect）。

小结。CFNet跟踪方法的特点：

结合Siamese网络和相关滤波方法
具有边界效应，一定程度上限制了算法性能

3.4 本文提出的方法（RASNet）

为了更好地解决过拟合问题，本文基于Siamese网络，将特征学习与判别学习分离。如何分离？通过多种注意力机制的cross correlation来进行分离。

4. RASNet目标跟踪方法

4.1 RASNet总体结构

这里写图片描述

从上图可以看出，本文基于Siamese网络进行改进，且本文最重要的创新点对应于图中的三个部分：① Residual Attention；② General Attention；③ Channel Attention，各个部分的作用如下所示：

Residual Attention：表示目标物体的全局信息（叠加、综合多帧视频画面中的目标信息）
General Attention：表示目标的“空间信息”，可以理解为传统相关滤波中的期望的高斯响应map
Channel Attention：表示特征通道信息，可以理解为对不同通道的特征进行加权处理

4.2 Residual Attention

这里写图片描述

论文用 $\tilde \rho$ 表示Residual Attention，它是一个二维的map，本质上是某种置信图，用于估计目标的共同（全局）特征

论文原文：The intuition behind this idea is that any one estimation might not capture both the common characteristics and distinctions of targets in different videos while a superposition of estimations might. The residual attention encodes the global information of the target and has low computation complexity. （from Section 3.3）

4.3 General Attention

这里写图片描述
论文用 $\bar \rho$ 表示，该变量也是一个二维矩阵，表示空间区域中的某种置信分布，其物理意义与相关滤波中基于高斯分布的期望输出比较类似，两者的区别在于：传统相关滤波中的期望输出通常为固定数值的二维矩阵，而本文的general attention是通过学习得到的。

4.4 Dual Attention = Residual Attention + General Attention

这个没什么好说的，dual attention $\rho$ 就是将上述residual attention和general attention进行叠加：

\begin{matrix} (5) & ρ = \bar{ρ} + \tilde{ρ} \end{matrix}

$\rho = \bar \rho + \tilde \rho \tag {5}$

两种Attention进行叠加的示意图下所示：

这里写图片描述

4.5 Channel Attention

一般情况下，经过卷积神经网络提取的特征通常都包含很多channel，其中每一层channel都代表了某种特定的模式，在不同的场景下，不同的channel可能具有相异的显著性（重要性），因此可以通过引入注意力机制对各个channel进行选择（这部分思想的出发点与CSR-DCF比较接近）。该部分的示意图如下所示：

这里写图片描述

这里，论文用 $i$ 表示channel层号，第 $i$ 层的特征输出为

\begin{matrix} (6) & {\tilde{z}}_{i} = β_{i} \cdot z_{i} \end{matrix}

${{\bf{\tilde z}}_i} = {\beta _i} \cdot {{\bf{z}}_i} \tag {6}$

4.6 融合

论文将上述三种Attention融合的思路示意图：
这里写图片描述

该融合思路，可以认为：首先将Residual Attention和General Attention进行“叠加”，得到Dual Attention，然后将Dual Attention与Channel Attention进行加权相乘。以下是论文的公式：

\begin{matrix} (7) & f_{p^{'}, q^{'}} = \sum_{i = 0}^{m - 1} \sum_{j = 0}^{n - 1} \sum_{c = 0}^{d - 1} ρ_{i, j} β_{c} ϕ_{i, j, c} (z) ϕ_{p^{'} + i, q^{'} + j, c} (x) + b \end{matrix}

${f_{p',q'}} = \sum\limits_{i = 0}^{m - 1} {\sum\limits_{j = 0}^{n - 1} {\sum\limits_{c = 0}^{d - 1} {{\rho _{i,j}}{\beta _c}{\phi _{i,j,c}}\left( {\bf{z}} \right){\phi _{p' + i,q' + j,c}}\left( {\bf{x}} \right) + b} } } \tag {7}$

其中， $\rho$ 表示Dual Attention， $\beta$ 表示Channel Attention， $\bf{z}$ 表示模板图像， $\bf{x}$ 表示搜索图像。

在论文中，这样的融合思想就是Weighted Cross Correlation，其中weighted就体现在论文创新的Attention机制。

回顾本博客中的公式(4)——SiamFC跟踪算法的基本建模：

\begin{matrix} (4) & f (z, x) = φ (z) * φ (x) + b \cdot I \end{matrix}

$f\left( {{\bf{z}},{\bf{x}}} \right) = \varphi \left( {\bf{z}} \right) * \varphi \left( {\bf{x}} \right) + b \cdot {\bf{I}} \tag {4}$

通过比较可以发现，论文所做的工作主要是：基于SiamFC，在模板图像中增加了注意力机制处理，以解决边界效应，实现更加鲁棒的目标跟踪方法。

4.7 网络结构

首先回顾SiamFC网络的loss function，下面是一个样本对的损失函数：

\begin{matrix} (8) & L (Z^{i}, X^{j}) = \frac{1}{| \nabla |} \sum_{u \in \nabla} \log (1 + \exp (- Z [u] \cdot X [u])) \end{matrix}

$L\left( {{{\bf{Z}}^i},{{\bf{X}}^j}} \right){\rm{ = }}\frac{{\rm{1}}}{{\left| \nabla \right|}}\sum\limits_{u \in \nabla } {\log \left( {1 + \exp \left( { - {\bf{Z}}\left[ u \right] \cdot {\bf{X}}\left[ u \right]} \right)} \right)} \tag {8}$

这种方式可能存在过拟合的问题，如下图所示：
这里写图片描述

从图中可以看出，论文选择了8帧画面，对于SiamFC算法而言，一个training pair可能随机地包含了两帧画面，比如，#1和#4就有可能被选择为一组training pair，然而#4是目标处于完全遮挡下的状态，用这种方式来训练会导致过拟合，降低跟踪器的性能。

基于SiamFC跟踪算法的上述不足，论文采用了一种类似加权的思路进行改进，以下是论文中所有样本对的loss function：

\begin{matrix} (9) & L_{a l l} = \sum_{i} \sum_{j} L (Z^{i}, X^{j}) \cdot Ω (i, j) \end{matrix}

${L_{all}} = \sum\limits_i {\sum\limits_j {L\left( {{{\bf{Z}}^i},{{\bf{X}}^j}} \right) \cdot \Omega \left( {i,j} \right)} } \tag {9}$

其中，

Ω (i, j) = \exp (- \frac{| i - j |}{σ})

$\Omega \left( {i,j} \right) = \exp \left( { - \frac{{\left| {i - j} \right|}}{\sigma }} \right)$

表示时间上的有效性权重，其基本思想是：两帧之间隔得越远，权重就越低。如此，就可以很大程度上避免SiamFC算法存在的上述训练过拟合问题。

RASNet视频目标跟踪论文笔记

1. 论文信息

2. 概述

3. 研究思路（重要）

3.1 相关滤波跟踪

3.2 Siamese netowrk跟踪方法

3.3 CFNet跟踪方法

3.4 本文提出的方法（RASNet）

4. RASNet目标跟踪方法

4.1 RASNet总体结构

4.2 Residual Attention

4.3 General Attention

4.4 Dual Attention = Residual Attention + General Attention

4.5 Channel Attention

4.6 融合

4.7 网络结构

猜你喜欢