《Handcrafted and Deep Trackers: Recent Visual Object Tracking Approachesand Trends》
MOSSE: Minimum Output of Sum of Squared Error (MOSSE) filter 2010 615fps ***
contribution:online tracking, efficient adaptive training.
原理:将相关转到频域,通过最小二乘法秋节相关滤波器H*:
目标检测区域f(可能是像素值也可能是提取的特征)和滤波模板h(大小和检测区域的大小一样,方便在频率域进行点乘计算) 做卷积运算,得到响应输出
时空域f和h的卷积运算可以转换为傅里叶频域的点乘运算
预处理:当滤波器稍微偏移就会超出输入图像的范围,需要填充数据。常用的有三种填充方法,补零、补边界像素、循环图像,matlab中fft默认的是第三种。
对原始灰度值进行对数变换,降低光照影响;灰度值归一化到均值为0;将图像与一个余弦窗相乘,让图像边缘的值接近0,更加的突出中间目标的权重。
训练:一组图像fi和期望输出gi。对第一个目标窗口fi进行八个仿射变换得到一组训练图像。gi通常是以目标为中心σ为方差生成的一个高斯矩阵。
滤波模板H :
MOSSE的滤波其要求对于视频序列的所有实际输出和期望输出的平方误差最小
因为视频序列会有光照、旋转、尺度等变换,MOSSE使用了滑动平均值作为H*更新策略。
学习率为0.125的时候,在保持鲁棒性的情况下,能够很快地适应物体外观的
检测:通过响应输出g来确定位置,通过频域计算出,再进行逆傅里叶变换求出g,g矩阵的最大值就是目标的位置
失败检测: 实验中PSR值在20到60之间被认为是跟踪效果较好,当PSR值低于7可以判断为跟踪失败,不更新模板。
缺点:1)样本采样仍是一种稀疏采样,训练效果一般;2)采样的是线性滤波器(最小二乘法),分类性能一般;3)采用的特征是单通道的灰度特征,表征目标的能力有限。
CSK: Circulant Structure with Kernal (CSK) tracker 2012 362fps
正则风险最小化:用线性分类器求解相关滤波器:
最小二乘法损失函数即为MOSSE中的,正则项防止滤波器H过拟合
转复数域
将输入x映射到高维特征空间 定义
另
polynomial kernel:
Gaussian kernel:
循环矩阵与密集抽样:
An n×n circulant matrix C(u) is obtained from the n×1 vector u by concatenating all possible cyclic shifts of u
直接利用循环矩阵去和滤波器点乘,省略了卷积模板在检测区域内滑动的过程,简化了对重合度高的候选窗的运算,提高了速度。
permutation matrix :
此时核矩阵是循环矩阵
快速检测:
The general formula for computing the classifier response for a single input z is
exploit the circulant structure to compute all the responses simultaneously and efficiently.
https://blog.csdn.net/qq_32763701/article/details/83691393
Kernelized Correlation Filters(KCF) 2014 172fps ***
线性回归:
F是一个不依赖于x的常数矩阵
x^表示生成向量x的DFT,
因此
由 与推导
非线性回归 :
将样本映射到非线性特征空间:
带有L2正则化的线性模型最佳化的时候的权重参数值W能够用样本空间的线性组合来表示:
求解变为
核空间所有训练样本的核相关矩阵是循环矩阵
由 与推导
检测:
polynomial kernel:
Gaussian kernel:
实验细节:
CN(152FPS)/CN2(202FPS) 《Adaptive color attributes for real-time visual tracking CVPR, 2014》
多通道颜色特征Color Names,
加速算法CN2,通过类PCA的自适应降维方法,对特征通道数量降维(10 -> 2),平滑项增加跨越不同特征子空间时的代价,也就是PCA中的协方差矩阵线性更新防止降维矩阵变化太大
DAT 《In defense of color-based model-free tracking CVPR, 2015》15FPS
基于颜色统计特征方法。统计前景目标和背景区域的颜色直方图,利用贝叶斯方法判别每个像素属于前景的概率,得到像素级颜色概率图。
有效降低传统颜色特征方法常出现的漂移现象。
Hierarchical convolutional features(HCF) 2015 10fps
hierarchical convolutional features :VGGNet layers conv3-4, conv4-4, and conv5-4(bilinear interpolation)
使用多层卷积特征分别学习滤波器得到response map 进行融合得到最终的response map
Hierarchical Correlation Feature based Tracker (HCFT*) 2018 6fps
HCF+re-detection + scale estimation.
Hedged Deep Tracking (HDT) 2016
HCF+hedge algorithm.
对每一层的特征进行训练,得到KCF滤波器weak tracker,
然后将weak tracker进行线性组合(对冲算法),得到stronger tracker(boosting)
最小化代价函数
Scale Adaptive Kernel Correlation Filter(SAMF) 2014 10FPS
HOG+CN+灰度的融合特征
尺度池(在比较的阶段对候选区域的目标做七个尺度的计算,与上一帧目标进行比较,其响应值最大的作为当前帧中的目标)
Discriminative Scale Space Tracking (DSST) 2014 50FPS ***
HOG+二维位置相关滤波(translation)和一维尺度相关滤波(scale estimation)
Fast DSST (fDSST) 2017 100FPS
Sub-grid Interpolation of Correlation Scores+Dimensionality Reduction(PCA)+Compressed Scale Filter
对DSST进行加速,PCA方法将平移滤波HOG特征的通道降维(31 -> 18),QR方法将尺度滤波器~1000*17的特征降维到17*17,最后用三角插值(频域插值)将尺度数量从17插值到33以获得更精确的尺度定位。
Long-term Correlation Tracking (LCT) 2015 27fps
DSST(平移相关滤波Rc+尺度相关滤波Rt)+目标置信度相关滤波/random fern calssifier
1) 根据 从第t帧中裁剪搜索窗口并提取特征;
2)位移估计: 用Rc和KCF计算相关图 估计新的位置 ;
3)尺度估算:在 周围构造目标金字塔,然后用Rt和KCF计算相关图 ,
用估计出最优尺寸 , 得到 ;
4)目标重新检测: 如果 , 跟踪失败,使用检测器Drf执行重新检测,找到可能的候选状态集合X;
(对 X 中的每个状态 ,计算置信分数 , 如果 ,则 ; 否则,)
5)模型更新:
更新Rc ;如果 ,使用Js更新Rt ;更新Drf ;
Improved LCT (ILCT) 2018 20fps
LCT+SVM
Sum of Template And Pixel-wise LEarners (STAPLE) 2016 80FPS
HOG(位移+尺度)+彩色直方图(仅位移) DSST+DAT
Parallel Tracking And Verifying (PTAV) 2017 gpu 50FPS
将 tracking 过程分解为两个并行但是相互协作的部分:快速跟踪( fDSST)+准确验证( Siamese network)。
跟踪器负责实时跟踪。跟踪器每隔一个固定的间隔向验证器V发送验证请求,发送验证请求后跟踪器依旧向后运行,当收到验证器反馈时,如反馈成功,跟踪器决定是否更新模型;如反馈失败,跟踪器要回到失败的那一帧再开始跟踪,所以需要将所有的中间结果都保存下来;
验证器每当收到跟踪器验证请求时进行验证,若 验证得分高于阈值,则返回一个正反馈,若跟踪失败需要返回该验证器找到的当前帧目标。(利用 region pooling layer 得到candidates,从中选择最好的作为检测结果。如果仍不符合要求,就放大搜索区域,进行再一次的搜索。)
DCF缺点:1)滤波器大小和patch大小相等。2)可能学习到不规则形状目标物体的背景信息。3)响应图接近中心的分值比较精确,然而其他得分受周期假设的影响。4)被限制在一个固定的搜索区域内。
DCF跟踪器在目标变形问题上表现不佳,这是由于模型过度拟合,因为从目标训练样本中学习,但缺少负样本。对DCF进行正则化:
Spatially Regularized DCF(SRDCF) 2015 5FPS
解决相关滤波器边界效应:边界效应发生在边界附近,因此忽略所有移位样本的边界部分像素(让边界附近滤波器系数接近0)
基于DCF,给滤波模板增加一个约束(空域正则化),对接近边界的区域惩罚更大,惩罚权重满足负Gauss分布,接近边界的区域惩罚更大。
(余弦窗是加在原始图像块上,之后再进行移位产生样本集;而空域正则化是加在样本集中每个移位样本上的。)
DeepSRDCF 2015 非常慢 1FPS
将SRDCF中的HOG特征替换为CNN中单层卷积层的深度特征
SRDCFdecon 2016 3FPS
在SRDCF的基础上,改进了训练样本集和样本权重(或学习率)问题。
Correlation filters with limited boundaries (CFLM) 2015 167FPS 效果差
基于灰度特征 MOSSE改进
Background-Aware Correlation Filters (BACF) 2017 35FPS 效果优于SRDCF
基于HOG特征 MOSSE改进
使用了真实的移位产生的负样本,包括了更大的搜索区域和真实的背景,而不是传统CF方法由正样本循环移位生成的负样本。
提取一个更大搜索域的样本,用这个样本循环,把除了中间那部分都填上零,既扩大了搜索域又保证了样本的循环结构;
Context-Aware Correlation Filter Tracking (CACF) CVPR 2017
增加对背景相应的约束 使得要训练的模版w与背景Ai做相关时响应尽量小
Spatial-Temporal Regularized CF (STRCF) 2018 30FPS
在DCF的基础上加入了spatial和temporal正则项
Channel Spatial Reliability for DCF (CSR-DCF) 2017 13FPS
1)空间可靠性:利用前景背景的颜色直方图构建mask矩阵,抑制边界效应
2)通道可靠性:利用不同通道的响应图信息构建了不同通道的加权系数
Continuous Convolutional Operators for Tracking (C-COT) 2016 3FPS
综合了SRDCF的空域正则化和SRDCFdecon的自适应样本权重,还将DeepSRDCF的单层卷积的深度特征扩展为多成卷积的深度特征,
为应对不同卷积层分辨率不同的问题,提出了连续空间域插值转换操作,通过频域隐式插值将特征图插值到连续空域,方便集成多分辨率特征图,并且保持定位的高精度。
Efficient Convolution Operators (ECO) 2017 60FPS
针对速度降低的三个最重要的因素改进CCOT
(1) Model Size(模型大小)即特征的复杂度。
ECO定义factorized convolution operator(分解卷积操作),效果类似PCA,用PCA初始化,然后仅在第一帧优化这个降维矩阵,以后帧都直接用,简单来说就是有监督降维,深度特征时模型参数减少了80%。
(2) Training Set Size(训练集大小)保存样本防止模型model drift,被背景或者错误的目标污染。
ECO采用 compact generative model(紧凑的样本集生成模型),采用Gaussian Mixture Model (GMM)合并相似样本,建立更具代表性和多样性的样本集,需要保存和优化的样本集数量降到C-COT的1/8。
(3) Model Update(模型更新) 每帧都更新增大计算量,也会有model drift问题。
ECO采用 sparser updating scheme(稀疏更新策略),每隔5帧做一次优化更新模型参数。但样本集是每帧都更新的,稀疏更新并不会错过间隔期的样本变化信息。
https://space.bilibili.com/209664735/channel/detail?cid=122647