Real-time tracking of TRACA

background:

       Currently, there are more and more advanced methods in the field of real-time tracking, but also greatly promoted the development of the field. There are two different methods of tracking the depth of learning based on: 1, composed by the online tracker, the tracker relies on the network of fine-tuning to continuously change the appearance of learning objectives, precision high, but can not meet the real-time requirements; 2, based on the relevant filter tracker composition, wherein the depth of the convolution with the original, the general object Imagenet as contained in the high-dimensional problems, further, with the increase of the calculation time correlation filter characteristic dimension increases not meet real-time requirements.

       In 2018 CVPR meeting, there has been such an article: "Context-aware Deep Feature Compression for High-speed Visual Tracking", caused no small repercussions. The main propose a new framework based on context-aware tracking of correlation filters in order to achieve a real-time tracker. In the calculation speed and accuracy we have good results. Wherein the speed increase comes mainly from the compression depth, using context-aware solutions plurality of expert auto-encoder; context refers to classification of coarse tracking targets according to various layers characterized in FIG. In the pre-training phase, each category a training expert auto-encoder. In the tracking phase, designated one of the best expert auto-encoder. In order to achieve efficient tracking performance, the introduction of external noise elimination process and the loss of orthogonality new item orthogonality loss, for pre-training and fine-tuning of the expert auto-encoder. While maintaining the current best performance, you can reach the speed of 100fps.

text:

      This paper presents a correlation-based tracker filter, wherein the depth of the original context-aware compression, calculation time can be reduced, thereby increasing the speed. FIG lower dimensional feature can be sufficiently represent a single target object, and detecting the classification task from the high school to large data sets; using an automatic encoder compressed into high dimensional feature low-dimensional features of FIG. Using a plurality of automatic encoders, each encoder dedicated to a particular class of objects, is called expert auto-encoder.

      It introduced an unsupervised method, according to the context information to find the category clustering training samples, then each cluster a training expert auto-encoder. During visual tracking, target specific context aware network choose the most appropriate according to expert auto-encoder. The consideration of a correlation filter correlation novel trimming loss function selected expert auto-encoder, wherein, after compression to obtain FIG. Wherein FIG compression reduces redundancy and reduce sparseness, which improves the accuracy and efficiency of the tracking frame. To track the target, wherein the compression is applied to the correlation filter of FIG.

FIG 1 CVPR2013 datasets

The main innovations:

       Wherein the context information based on the depth of compression and a plurality of automatic encoder (TRACA) proposed by a plurality of TRAcker expert auto-encoder, context-aware networks and related filter which, as shown in FIG. expert auto-encoder may compress the original convolutional powerful feature depth of VGG-Net. Each of which are trained to the specific context, thereby performing a context-dependent compression. We recommend the use of context-aware network expert auto-encoder to select the most suitable for a particular target tracking, and run only during this autoencoder online tracking. After recommended to select expert auto-encoder applies to track a specific target, which is used as the compression characteristic of FIG target tracking online correlation filter input.


Figure 2. The proposed algorithm program. Expert autoencoder by the context-aware network selection by the initial frame (I (1)) ROI portion of the trimming time. For the following frame, we first extract ROI patch (I (t)) before a target location for the center. Then, a convolution of the original depth feature (X) by VGG-Net, by trimming the Specialist Auto encoder compresses. Compression characteristics (Z 0) is used as the filter characteristic of FIG relevant peak position of the target determined by the filter response. After each frame, the newly discovered by the target compression characteristics associated filter update online.

      1, the automatic encoder Expert Expert auto-encoders

      自动编码器适用于无监督学习的特征。提供了一种学习输入的紧凑表示的方法,同时保留最重要的信息在紧凑的表示下恢复输入。本文使用一组相同的Ne auto-encoders,每个编码器覆盖不同的上下文。要压缩的输入是从VGG-Net中的一个卷积层获得的原始深度卷积特征图。为了实现高压缩比,我们堆叠N1个编码层,后面跟着自动编码器中的N1个解码层。第l层编码层f-l是一个卷积层,f-l:Rwxhxcl->Rwxhxcl+1,从而减少了通道数,保持了特征图的大小。f-l的输出作为为fl+1的输入,使得通道数c随着特征图通过编码层而减小。一个编码层将通道数减少了一半,i.e. cl+1 = cl/2 for l ∈ {1, · · · , N l }。在第(Nl − k + 1)解码层,g-k使用与f-l相反的方式解码,gk : Rw×h×c k+1 → R w×h×c k 扩展输入的通道数从c_k+1 到c_k,在解码器的最后一层回复X的原始通道数到C1.于是自动编码器可以表示成AE(X) ≡ g1 (· · · (g N l (f N l (· · · (f 1 (X))))) ∈ R w×h×c1,对于原始卷积特征图X∈Rw×h×c1。自动编码器中的压缩特征映射定义为Z≡fN l(···(f1(X)))∈Rw×h×c Nl +1。所有卷积层之后是ReLU激活函数,其卷积滤波器的大小设置为3×3。

  预训练

  expert auto-encoders的预训练阶段分为三个部分,每个部分都有不同的用途。首先,我们使用所有训练样本训练 auto-encoders AE0,以找到与上下文无关的初始压缩特征图。然后,我们对AE0得到的初始压缩特征图执行上下文聚类,以找到Ne个依赖于上下文的集合。最后,这些集合被用于训练expert auto-encoders,利用其中的一个集合初始化expert auto-encoders。

      使用基本自动编码器的目的有两个:使用与上下文无关的压缩特征图来聚类训练样本,并找到良好的初始权重参数,expert auto-encoders可以从中进行微调。基本自动编码器由原始卷积特征图{Xj} mj = 1训练,batch大小为m。X j来自VGG-Net卷积层的输出,输入图像为来自诸如ImageNet的大图像数据库的随机选择的训练图像。

       为了使基本自动编码器对外观变化和遮挡更加鲁棒,我们使用两个去噪标准来帮助捕获输入分布中的不同结构(如图3所示)。第一个去噪准则是一个通道破坏过程,其中随机选择固定数量的特征通道,并将这些通道的值设置为0。移除了这些通道的所有信息,并且训练自动编码器以恢复该信息。第二个标准是交换过程,其中卷积特征的一些空间特征向量是随机互换的。由于特征向量的感受域覆盖图像内的不同区域,因此交换特征向量类似于在输入图像内交换区域。因此,交换背景区域和目标区域的特征向量起到了类似遮挡目标的效果。我们记{ X̌ j } mj=1是经过两步去噪之后的批次。然后我们可以通过最小化 原始的特征图和输入去噪特征图自动编码生成的特征图的距离,来训练基础的自动编码器。

        当只考虑基本自动编码器的输入和最终输出之间的距离时,经常会出现过拟合和不稳定的训练收敛。为了解决该类问题,设计了一个新的损失函数:这个损失由部分自动编码器的输入和输出的距离组成。部分自动编码器{AEi (X)} Ni=1 仅包含其原始自动编码器AE(X)的一部分编码和解码层,而输入和输出大小与原始自动编码器的大小一样,i.e. AE 1 (X) = g 1 (f 1 (X)),AE 2 (X) = g 1 (g 2 (f 2 (f 1 (X)))), · · · when AE(X) =g 1 (· · · (g N l (f N l (· · · (f 1 (X)))))).因此,基于多级距离的损失可以描述为

其中AE i o(X)是AE o(X)的第i个部分自动编码器,并且m表示批量大小。

  根据由基本自动编码器压缩的各个样本的特征图,对训练样本{I j} Nj = 1进行聚类,其中N表示训练样本的总数。为了避免由于聚类得到簇太小而导致expert auto-encoders过度拟合,我们引入了两步聚类算法,避免了小簇。

        第一步,我们找到2Ne样本,这些样本是从基本自动编码器压缩的特征图中随机选择的(请注意,这是所需群集量的两倍,Ne为指定的聚类个数)。我们重复1000次随机选择,找到其中欧几里德距离最大的样本作为初始质心。然后,使用k = 2Ne,对所有样本的压缩特征图像使用K-means进行聚类;

        第二步,我们在得到的2NE个聚类中心,去除其中的NE个小的聚类中心。然后在使用这些聚类中心聚类,这样就保证了每个类都有足够多的样本,防止过拟合。我们将I j的聚类索引表示为dj∈{1,...,N e}。第d个expert auto-encoders AE-d是有基本的自动编码器在第d簇上微调后得到的。训练过程(包括去噪标准)与训练样本中的基本自动编码器不同。

        2、基于上下文的网络 Context-aware Network

        结构:上下文感知网络选择在上下文中最适合给定跟踪目标的expert auto-encoders,我们采用预先训练的VGG-M模型[3]用于上下文感知网络,因为它包含来自ImageNet预训练的大量语义信息。输入是一张224*224的RGB图片,上下文唤醒网络,先是有三个卷积层组成{conv1,conv2,conv3},后面跟了3个全连接层{fc4,fc5,fc6},其中{conv1,conv2,conv3,fc4}与VGG-M中相对应的层相同。fc5和fc6的参数以均值为0的高斯分布随机初始化。fc5之后是RELU,有1024个输出节点.最后,fc6具有Ne个输出节点并且与softmax层组合以估计每个expert auto-encoders适合于跟踪目标的概率。

       预训练:

上下文感知网络将训练样本I j作为输入,并输出属于簇索引d j的该样本的估计概率。它通过批量{I j,d j} mj = 1的图像/聚类索引对进行训练,其中m 0是上下文感知网络的小批量大小。通过预训练,调整{conv1,conv2,conv3,fc4}的参数,训练{fc5,fc6}的权重,通过最小化多类损失函数L-pr使用随机梯度下降。

H表示交叉熵损失,h(Ij)是上下文唤醒网络h,预测的Ij属于的簇的索引。

      3、协同过滤Correlation Filter

      先简要介绍使用单通道特征映射的传统相关滤波器的功能。基于傅立叶域中的循环矩阵的性质,可以快速训练相关滤波器,这导致在低计算负荷下的高性能跟踪器。给定矢量化单通道训练特征图z∈Rwh×1,从2-D高斯窗口获得矢量化目标响应图y,其大小为w×h和方差σy2,矢量化相关滤波器w可以通过以下方式估算:

其中ŷ和ẑ分别代表y和z的傅里叶变换矢量,ẑ∗是z的共轭向量,代表逐元素相乘。F ^(−1)代表代表逆傅里叶变换函数,λ是预定义的正则化因子。对于矢量化单通道测试的特征图z0∈wh×1R,矢量化响应图r可以通过以下方式获得:

      然后,在从r重建2-D响应图R∈Rw×h之后,从R的最大峰值位置找到目标位置。 

      4、跟踪过程Tracking Process

      初始适应过程包含以下部分:

我们首先从初始帧提取包括目标的感兴趣区域(ROI),并且由上下文感知网络选择适合于目标的expert auto-encoders。然后,使用从ROI增强的训练样本的原始卷积特征图来微调所选择的expert auto-encoders。当我们从微调expert auto-encoders获得压缩特征图时,它的一些通道代表背景对象而不是目标。因此,我们引入了一种算法来查找和删除响应背景对象的通道。

       感兴趣区域提取:ROI以目标的初始边界框为中心,比目标的大小大2.5倍,覆盖附近区域。然后,我们将宽度W和高度H的ROI调整为224×224,以匹配VGG-Net的预期输入大小。这使ROI区域变成了在RGB颜色空间上的I (1) ∈ R 224×224×3。对于灰度图像,灰度值被复制到三个通道上,得到I(1)。使用上下文感知网络h根据初始目标的上下文信息选择用于跟踪场景的最佳expert auto-encoders,并且我们可以将该自动编码器表示为AEh(I)。

初始样本增强:即使我们使用前面描述的两个去噪标准,我们发现expert auto-encoders的压缩特征图也存在使目标变得模糊或被翻转的问题。因此,在微调所选expert auto-encoders之前,我们以多种方式增强I(1)。为了解决模糊问题,通过用具有方 差{0.5,1.0,1.5,2.0}的高斯滤波器对I(1)进行滤波来获得四个增强图像;分别通过围绕垂直轴和水平轴翻转I(1)来获得另外两个增强图像。然后,从增强的(1)样本中提取的原始卷积特征图可以表示成

微调: 所选自动编码器的微调与expert auto-encoders的预训练过程不同。由于缺乏训练样本,优化很少在应用去噪标准时收敛。相反,我们使用相关滤波器正交性损失L ad,其考虑从expert auto-encoders的压缩特征图估计的相关滤波器的正交性,其中L定义为:

其中 

由方程(3)估计的矢量化相关滤波器,其使用来自所选expert auto-encoders的压缩特征映射(1)fi(···(f 1(X j)))的矢量化第k个通道。 相关滤波器正交性损失允许增加相关滤波器之间的相互作用,如从压缩特征图的不同信道估计。通过使用随机梯度下降最小化L ad的区别在补充材料的附录A中描述。

背景频道删除:压缩特征映射Z∀可以从微调expert auto-encoders获得。然后,我们删除Z∀内的通道,这些通道在目标边界框之外有大的响应。通过估计通道中前景和背景特征响应的比率来找到这些通道。首先,我们估计通道k的特征响应的 channel-wise比率为

是特征图第K个通道的特征图,是特征图第K个通道将bounding box之外的区域设置为0得到的。然后,在按照ratio-k以降序对所有信道进行排序之后,仅将压缩特征映射的前N c个信道用作相关滤波器的输入。我们将得到的特征图表示为Z∈RS×S×N c,其中S是特征尺寸。

         5、在线跟踪顺序Online Tracking Sequence

         相关滤波器估算和更新:我们首先使用与初始适应中相同的方法获得当前帧t的调整后的ROI,即,调整后的ROI以目标的中心为中心,其大小是目标大小的2.5倍并且调整为224×224。在将调整后的ROI馈送到VGG-Net之后,得到原始深度卷及特征,通过将VGG-Net的原始深度卷积特征图输入到自适应expert auto-encoders中,我们获得压缩特征映射

之后我们使用等式3,我们估计独立的相关滤波器的参数,根据每个特征图 的第K个通道. 是特征图的第K个通道。参照【16】的方法,我们通过将每个与相同大小的余弦窗口相乘来抑制背景区域。 对于第一帧,我们可以根据使用方程(3)估计相关滤波器

对于之后的帧(t> 1),相关过滤器更新如下: 

 其中γ是插值因子。

       跟踪:在估计相关滤波器之后,我需要寻找t帧物体的位置。由于我们假设接近前一帧中的目标位置,我们从与前一帧的相关滤波器估计的ROI相同的位置提取跟踪ROI。这样我们就可以得到由适应的expert auto-encoder生成的特征压缩图用于追踪,把用于等式(4),得到通道处理过的相应图(我们以与相关滤波器估计相同的方式应用余弦窗的乘法)。

我们需要将组合成综合相应图。我们使用加权平均方案,其中我们使用验证分数作为权重因子。

 

是一个S*S的高斯窗口,方差的峰值为中心。然后,综合响应图计算如下:

跟[5]一样,我们通过在峰值位置附近内插响应值来找到子像素目标位置。 最终目标的位置由计算:

       

       尺度变换:为了处理目标的比例变化,我们提取了两个额外的ROI补丁,这些补丁是从先前的ROI补丁大小缩放的,在跟踪序列中分别具有缩放因子1.015和1.015^(-1)。选择新的目标比例作为响应图(来自缩放的ROI)的相应最大值最大的比例。

       完全遮挡处理:为了处理完全遮挡,采用了重新检测算法。 总体思路是引入所谓的重新检测相关滤波器,该滤波器未被更新并且在检测到遮挡时应用于目标的位置。当如上所述检测到最大(t)响应值Rmax≡max(R(t))的突然下降时,假设完全遮挡。如果满足该条件,则将时间(t-1)处的相关滤波器用作重新检测相关滤波器。在下一个N帧期间,如果重新检测滤波器的响应图的最大值大于由正常相关滤波器获得的响应图的最大值,则使用由重新检测相关滤波器确定的目标位置。

 

 

参考链接:

1、https://blog.csdn.net/qq_34135560/article/details/83755395

2、https://blog.csdn.net/ms961516792/article/details/81412356

3、https://blog.csdn.net/weixin_40645129/article/details/81173088

Guess you like

Origin www.cnblogs.com/jimchen1218/p/11978461.html
Recommended