CREST: Convolutional Residual Learning for Visual Tracking

本文概览

  • 分析DCF系列跟踪算法的不足,并加以改进;

  • 本文核心一:将DCF作为CNN中的一个卷积层;

  • 本文核心二:将特征提取,响应图产生以及模型更新整合到CNN中进行端对端训练;

  • 本文核心三:残差学习的思想用于深度目标跟踪网络的更新,可以更有效地应对目标外观的大变化和小变化;

  • 本文实验效果:在OTB100上获得了0.837的精度和0.623的覆盖率;

DCF算法分析

  • DCF算法优点一:可以在频域上进行快速模型学习和目标检测;

  • DCF算法优点二:在搜索域内响应密集,有益于高精度的目标跟踪;

  • DCF算法优点三:通过结合深度特征可以获得很好的跟踪效果;

  • DCF算法不足一:特征提取和模型学习分离的,难以从端对端的学习方式中受益;

  • DCF算法不足二:模型更新采用滑动加权平均的方式,不是最优的更新方式,因为一旦有噪声参与更新,很有可能导致模型的漂移,因此难以同时兼得模型的稳定性和适应性;

针对DCF算法进行改进

  • 改进一:将DCF算法中学习的模板看做深度卷积神经网络中的卷积滤波器

    扫描二维码关注公众号,回复: 1031114 查看本文章
  • 改进二:将从VGG16中进行特征提取以及响应图的产生和模型的更新统一整合成一个端对端的方式;

  • 改进三:从时域进行卷积计算,从而避免了DCF在频域求解中的边界效应问题;

  • 改进四:为了更加合适的更新模型,通过检测卷积层的输出(即响应图)和ground truth的差别,使用残差学习的方式捕获外观的改变,从而引导模型更新,从而不但可以有效地减轻噪声更新对模型的影响,还可以使模型在目标外观发生大的变化时进行鲁邦的更新;

本文算法框架

  • 除了VGG作为前端进行特征提取外(这里我们可以用CNN提取特征),另外设置三个并行层,分别为:基本的卷积层,时间残差层,空间残差层;

  • 基本卷积层:代替DCF的滤波器,损失函数同标准线性核DCF损失函数

  • 残差学习层:原则上,基本卷基层的输出应该和ground truth label相同,但是实际上达不到,虽然可以通过增加基本卷积层数达到目的,但是这样会导致模型泛化能力下降,因此加入残差学习层,通过捕获基本卷积层和ground truth之间的差别进行学习更新;

目标跟踪流程

  • 模型初始化:使用VGG网络进行特征提取随机初始化卷积层和残差学习层,给定第一帧图片后finu-tune卷积层和残差层使得输出接近ground truth;

  • 在线检测:提取搜索域特征,网络前传,得到相应图,最大值定位;

  • 尺度估计:多尺度采样,选最大值所对应的尺度后,进行平滑尺度更新;

  • 模型更新:在在线跟踪过程中产生训练数据用于跟踪模型更新;

实验

  • 实验配置1:5倍搜索域;

  • 实验配置2:使用VGG16中conv4-3经PCA降维到64通道后作为特征

  • 实验配置3:标签为高斯分布

  • 实验配置4:尺度平滑参数为0.6

  • 实验配置5:使用MatConvNet框架实现;

  • 实验配置6:模型初始化时,训练学习率为5e-8,学习停止准则为loss小于0.02,几百次迭代后收敛;

  • 实验配置7:模型更新时,每两帧更新一次,更新时迭代2次,学习率为2e-9;

  • 实验数据集:OTB-2013,OTB-2015,VOT-2016;


猜你喜欢

转载自blog.csdn.net/shenziheng1/article/details/80262761