算法学习 -- Staple: Complementary Learners for Real-Time Tracking

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010598445/article/details/52793592

Abstract

一个结合梯度特征HOG及颜色特征的实时跟踪算法,速度达到80FPS,即每秒80帧图像。

Introduction

Staple: Sum of Template And Pixel-wise LEarners
对于目前的主流跟踪算法,采用的tracking-by-detection策略,即先检测目标的位置,以HOG检测为例 ,对同一个目标,可能得到多个目标的矩形框,如下图所示。有的时候直接通过NMS(non-maximum suppression 非极大值抑制)处理保证只有一个解。不过多数跟踪算法宁可错杀,也不愿放过一个。HOG Object Detection 可以参考 Histogram of Oriented Gradients and Object Detection
这里写图片描述

Related Work

  1. Online learning and Correlation Filters:在线学习+协同过滤
  2. Robustness to deformation:应对形变
  3. Schemes to reduce model drift:应对漂移问题
  4. Combining multiple estimates:结合多种估计
  5. Long-term tracking with re-detection:长期跟踪及重复检测

Proposed Approach

符号及含义

  1. t frame index, 帧索引,帧下标
  2. xt 第t帧图像, x 指代任意一帧图像
  3. pt 第t帧图像中目标对应的矩形,当然,这个是最优的, p 指代任意一帧图像
  4. St 第t帧图像中目标对应的所有矩形,所以我们有
    pt=argmaxpStf(T(xt,p);θt1)
  5. f(T(x,p);θ) 依据模型参数 θ ,计算得到目标在图像 x 对应矩形 p 的分数(score)。这个分数当然是越高越好,所以选择取最大分数时的矩形 p 作为最优的矩形 pt 。对于 T(x,p) 可以暂时肤浅地理解为检测出来的梯度特征与颜色特征。同样参数 θ 也可以暂时肤浅地理解为预测的梯度特征与颜色特征。然后 f(T(x,p);θ) 求预测特征与检测特征之间的匹配的情况,匹配分数越高,就越可能对应实际的目标矩形 pt
  6. θ 模型参数 θ 可以通过损失最小化求出,设损失函数为 L(θ;Xt) ,在这里 Xt={(xi,pi}ti=1 并不是帧的集合 {x1,x2,...,xt} ,而是 {(x1,p1),(x2,p2),...,(xt,pt)} ,这样包含之前每一帧中目标的位置。对参数的复杂度加以惩罚,最终得到:
    θt=argminθΩ{L(θ;Xt)+λR(θ)}
  7. f(x) 回到对 p 进行打分的函数,前面提到要结合梯度特征与颜色特征,考虑算法的实时性,当然用线性方式结合速度快,这样有
    f(x)=ctmplftmpl(x)+chistfhist(x)

    抱歉这里的 x 理应对应 T(x,p);θ ,但原文中就是这么用的。tmpl 就是template(梯度特征),hist就是histogram(颜色直方图特征)
  8. ftmpl(x;h) 考虑梯度特征的打分函数,这里 T 以及前面的函数 T(xt,p) 应该没有任何联系。 2 为有限的网格(finite grid),可以理解为图像中一像素的位置坐标(x,y)。 T 应该为向量的转置。这里h为模型参数, ϕx 为图像梯度特征。这样,对于每一点,我们有:
    ftmpl(x;h)=uh[u]Tϕx[u]
  9. fhist(x;β) 考虑颜色特征的打分函数,有一点点不同,在这里, β 同样是模型参数, 也同样是有限的网格(finite grid)
    fhist(x;β)=βT(1uψx[u])
  10. θ 参数 θ=(h,β)
  11. L(θ,XT) 损失函数= Tt=1wtl(xt,pt,θ) ,这里每帧的损失函数 l(x,p,θ)=cost(p,argmaxqSf(T(x,q);θ)) ,在这里, p 自然是正确的矩形。
  12. 然后得到参数的解:
    ht=argminh{Ltmpl(h;Xt)+12λtmplh2}
    βt=argminβ{Lhist(β;Xt)+12λhistβ2}

Online least-squares optimisation

上面仅仅介绍了原文的前10个公式,原文一共26个公式,就不一一介绍了。接下来主要讲大概。
这一小节通过梯度下降求解损失函数

Learning the template score

再次梯度下降求 h

Learning the histogram score

还是梯度下降求 β

Search strategy

本文假设矩形窗口 p 有平移和缩放,但保持长宽比例和朝向(目标不旋转)
这里写图片描述

Reference

猜你喜欢

转载自blog.csdn.net/u010598445/article/details/52793592