C-COT -- 超越相关滤波：学习连续卷积算子(Continuous Convolution Operators)

在视频跟踪算法中，ECO算法表现很优秀，它是基于C-COT跟踪算法的改进（都是Martin神作）。因此学习C-COT是理解和改进ECO算法的基础和关键。

一、C-COT算法的整体核心原理如下图所示：

多分辨率深度特征图习得的连续卷积滤波器　每层置信度最终的连续置信度输出函数

图中是可视化的应用于多分辨率深度特征映射的连续卷积算子。第一列是输入的 RGB patch 和预训练好的深层网络的第一个卷积层和最后一个卷积层的特征图。第二列是框架学习到的连续卷积滤波器的可视化。每一层连续卷积输出的结果（第三列）被组合成目标（绿色框）的最终连续置信度函数（第四列）。

文章提出一种用于学习连续空间域中的卷积算子的新公式，采用训练样本的隐式插值模型。通过学习一组卷积滤波器来产生目标的连续域置信度图。这可以在联合学习公式中实现多分辨率特征映射的完美融合。

除了多分辨率融合之外，连续域学习公式还可以实现精确的亚像素定位。这一点通过用亚像素精确连续置信度图标记训练样本来实现。因此这种构造也适用于精确特征点跟踪。

Further, our learning-based approach is discriminative （有区别性的，辨别的）and does not require explicit interpolation （明确插值）of the image to achieve sub-pixel accuracy.此外，这样的学习的方法具有辨别性，并且不需要在图像上明确插值实现亚像素精度。且已在流行的MPI Sintel数据上进行了广泛的特征点跟踪实验，证明了C-COT的准确性和鲁棒性。

二、相关介绍和工作

判别相关滤波器（DCF）表现让人满意。这些方法利用滑动窗口的循环相关属性训练回归器。最初，DCF方法仅限于单通道特道。后来DCF框架扩展到多通道特征图。多通道DCF可以将高维特征（如HOG和CN Color Names）纳入其中。除了包含多通道特征之外，DCF框架最近也通过加入尺度估计（Scale Estimation），非线性核函数（Non-linear kernels），长期记忆（long-term memory），和减轻循环卷积的周期性影响等方法进行了显著改进。

随着深度CNN的出现，网络的全连接层被普遍用于图像表示。最近，最后一层卷积层被证明对图像分类更有利。另一方面，与深层相比，第一层（浅层）的卷积层更适合视觉跟踪。深卷积层具有判别性，并具有高级视觉信息。相反，浅层包含高空间分辨率的低层特征，有利于定位。独立DCF跟踪器的分层集合中采用了多个卷积层。与之相反，C-COT框架中提出了一种新型的的连续方程，在这个联合学习框架中融合具有不同空间分辨率的多个卷积层。

而特征点跟踪不同于目标跟踪，它是准确评估特殊关键点运动的任务。大多数特征点跟踪方法都来自经典的KLT跟踪器。 KLT跟踪器是一种生成方法，原理是最小化两个图像块之间差异的平方和。在过去的几十年里，花费了大量精力来改进KLT跟踪器。相比之下，C-COT是一种基于判别式学习的特征点跟踪方法。我们的方法：我们的主要贡献是用于学习连续空间域中的区分卷积算子的理论框架。

C-COT与传统的DCF框架相比具有两大优势。

（１）允许多分辨率特征图的自然整合，如卷积层或多分辨率HOG和颜色特征的组合。特别适用于对象跟踪，检测和动作识别。

（２）连续公式能够实现准确的亚像素定位，这在许多特征点跟踪问题中至关重要。

三、学习连续卷积算子（Continuous Convolution Operators）

本节提出学习连续卷积算子的理论框架。其中的公式是通用的，可用于有监督学习任务，如视觉跟踪和检测。

（１）首先，在一维空间定义学习公式和方法。

复值函数　 $g:\mathbb{R}\rightarrow \mathbb{C}$ 　在空间　 $L^{2}(T)$ 　中，以　 $T$ （ $T>%uFF10$ 0 ）为周期且勒贝格平方可积。

$L^{2}(T)$ 　是一个希尔伯特空间，在此空间上定义内积算子　 $< a,b>$ ，则对于函数 $g,h \epsilon L^{2}(T)$ ，有傅里叶变换对：

傅里叶级数定义为：,　　

同时满足一下性质： $\left \| g \right \|^{2}=\left \| \widehat{g} \right \|_{l^{2}}^{2}$ , 其中　 $\left \| g \right \|^{2}=< g,g>$ ,　 $\left \| \widehat{g} \right \|_{^{_{l^{2}}}}^{2}=\sum_{-\infty }^{\infty }\left | \widehat{g}\left [ k \right ] \right |^{2}$

$\widehat{g*h}=\widehat{g}\widehat{h}$ , $\widehat{gh}=\widehat{g}*\widehat{h}$ 　，　其中

（２）然后，给出转化至连续域的插值算子公式。

学习的目标是训练一个基于训练样本　 $x_{j}$ 　的连续卷积算子。

每个训练样本　 $x_{j}$ 　包含 $D$ 个从同一块 image patch 中提取的特征通道（feature channels）

每个特征通道 $x_{j}^{d}$ 中的采样数（分辨率）为 $N_{d}$ , $x_{j}^{d}\left [ n \right ]$ 表示在离散空间变量中的索引。

由此，样本空间即可表示为：。

接下来，用一个内插算子　　把特征离散空间变换到一个连续区间

整个内插算子 $J_{d}$ 由内插函数 $b_{d}$ 的各个平移形式叠加来构造， $x_{d}\left [ n \right ]$ 代表每个平移后的函数的加权值。

（３）接下来定义连续卷积算子学习公式。

线性卷积算子将样本映射成一个定义在连续区间中的目标置信函数

，它是目标在图像的位置处的置信分数，我们通过寻找图片区域中的最大置信分数来定位目标

$S_{f}$ 由一系列卷积滤波器参数化，是针对特征通道 $d$ 的连续滤波器。

最后将所有特征通道中全部滤波器的卷积响应加起来得到最后的置信函数。

寻找最大置信度（目标定位）方法－－标准牛顿法（第二步）。第一步采用网格搜索进行粗略的初始化估计

（４）定义最小化泛函 $E\left ( f \right )$

滤波器 $f$ 是在给定的 $m$ 个训练样本对下，最小化泛函 $E\left ( f \right )$ 得到的(相当于最小化loss函数)

$\alpha _{j}$ 控制每个训练样本的影响力（权重），是正则化项，C-COT的正则化策略与SRDCF算法中相同。

采用这种正则化策略可以通过控制滤波器的空间长度在任意大的区域上学习， $\omega$ 是关于空间位置的权重矩阵，通常背景区域的 $\omega$ 值大，目标区域的 $\omega$ 值小。 P.S.限制条件-- $\omega$ 含有有限个非零傅里叶级数 $\widehat{\omega }\left [ k \right ]$ 。

（５）最小化方法思路：在傅里叶域最小化 $E\left ( f \right )$ 。

由数学推导，根据傅里叶变换的帕塞瓦尔定理（能量守恒定理）可将最小化 $E\left ( f \right )$ 　的公式等价于 $E\left ( f \right )$ 相对于每个滤波器 $f_{d}$ 的傅里叶系数 $\widehat{f^{d}}$ 的最小化，如下式：

出于实际考虑，我们的滤波器组要是有限数量的，因此在有限维子空间 $V$ 上获得 $E\left ( f \right )$ 的最小化。换句话说，我们相对于系数　最小化 $E\left ( f \right )$ 。设置，以使得 $d$ 通道存储的滤波器系数的数目与训练样本 $x_{j}^{d}$ 　的空间分辨率 $N_{d}$ .

$V=span\left \{ e_{k} \right \}_{-K_{1}}^{K_{1}}\times \cdots \times span\left \{ e_{k} \right \}_{-K_{D}}^{K_{D}}\subset L^{2}\left ( T \right )^{D}$