TRACAのリアルタイム追跡

背景:

       現在、リアルタイム追跡の分野でより多くの高度な方法がありますが、大幅分野の発展を促進しました。基づいた学習の深さを追跡する2種類の方法があります:オンライントラッカーによって構成1は、トラッカーは、継続的に学習目標、精度の高いの外観を変更する微調整のネットワークに依存しているが、リアルタイム要件を満たすことができない; 2、関連に基づきますフィルタトラッカ組成物であって、前記オリジナルとの畳み込みの深さ、リアルタイムの要件を満たしていない計算時間相関フィルタ特性寸法増加の増加に伴って、さらに、高次元の問題に含まれる一般的なオブジェクトImagenet。

       2018 CVPR会では、このような記事があった:「高速視覚追跡のためのコンテキストアウェアディープ機能の圧縮」、少なからず影響が発生することはありません。メインは、リアルタイムトラッカーを達成するために、相関フィルタのコンテキストアウェア追跡に基づいた新たな枠組みを提案します。計算速度と精度で、我々は良い結果を持っています。前記速度増加は、専門家自動エンコーダの状況認識ソリューションの複数を用いて、圧迫深度から主に来る;コンテキストは図に特徴様々な層に応じて粗トラッキング対象の分類を指します。事前訓練段階では、各カテゴリのトレーニングの専門家自動エンコーダ。追跡フェーズでは、最高の専門家オートエンコーダの1つの指定。効率的な追従性能を達成するために、外部のノイズ除去処理の導入や事前研修、専門家オートエンコーダの微調整のための直交新しい項目の直交性損失の損失、。現在の最高性能を維持しながら、あなたは100FPSの速さに到達することができます。

本体:

      本稿では、元のコンテキストアウェア圧迫の深さは、計算時間は、それによって速度を増加させる、減少させることができる前記相関に基づく追跡フィルタを提示します。図低次元の特徴を十分に単一のターゲットオブジェクトを表し、そして大規模なデータセットに高校から分類タスクを検出することができ、図の高次元特徴低次元の特徴に圧縮自動エンコーダを使用します。自動複数のエンコーダを使用して、オブジェクトの特定のクラスに専用の各エンコーダは、エキスパートオートエンコーダと呼ばれます。

      これは、カテゴリクラスタリング学習サンプル、その後、各クラスタトレーニングの専門家の自動エンコーダーを見つけるためのコンテキスト情報に基づいて、教師なしの方法を導入しました。視覚追跡期間中、対象の特定のコンテキスト対応のネットワークは、専門家のオートエンコーダに応じて最も適切なを選択してください。損失関数をトリミング相関フィルタ相関新規の考慮事項は、圧縮後の図を得るために前記エキスパート自動エンコーダを、選択されました。前記図圧縮は、冗長性を低減し、スパースネスを減らす、追尾枠の精度と効率を向上します。圧縮は、図の相関フィルタに適用される、ターゲットを追跡します。

図1 CVPR2013データセット

主な技術革新:

       圧迫の深さとトラッカーエキスパート自動エンコーダは、複数のコンテキストアウェアネットワーク図に示すように、関連するフィルタによって提案自動エンコーダ(TRACA)の複数に基づいて、前記コンテキスト情報。専門家の自動エンコーダはVGGネットの元畳み込み強力な機能の深さを圧縮することができます。その各々は、それによってコンテキスト依存圧縮を行う、特定のコンテキストに訓練されます。私たちは、特定の目標追跡のために最も適したを選択して、このオートエンコーダオンライン追跡中にのみ実行するコンテキストアウェアネットワークの専門家のオートエンコーダを使用することをお勧めします。エキスパート自動エンコーダを選択することを推奨した後、オンライン相関フィルタ入力を追跡図対象の圧縮特性として使用される特定の標的を追跡するために適用されます。


図2.提案アルゴリズムプログラム。トリミング時の初期フレーム(I(1))ROI部によるコンテキストアウェアネットワーク選択によるエキスパートオートエンコーダ。次のフレームのために、我々最初の抽出ROIパッチ(I(t))を中心に対する目標位置の前に。その後、専門オートエンコーダの圧縮をトリミングすることにより、元の深度機能VGG-ネット(X)の畳み込み。圧縮特性(Z 0)は、フィルタの応答によって決定された目標の図の関連するピーク位置のフィルタ特性として使用されます。各フレームの後、新たにオンラインフィルタの更新を関連する目標圧縮特性によって発見されました。

      図1に示すように、自動エンコーダエキスパートエキスパート自動エンコーダー

      自动编码器适用于无监督学习的特征。提供了一种学习输入的紧凑表示的方法,同时保留最重要的信息在紧凑的表示下恢复输入。本文使用一组相同的Ne auto-encoders,每个编码器覆盖不同的上下文。要压缩的输入是从VGG-Net中的一个卷积层获得的原始深度卷积特征图。为了实现高压缩比,我们堆叠N1个编码层,后面跟着自动编码器中的N1个解码层。第l层编码层f-l是一个卷积层,f-l:Rwxhxcl->Rwxhxcl+1,从而减少了通道数,保持了特征图的大小。f-l的输出作为为fl+1的输入,使得通道数c随着特征图通过编码层而减小。一个编码层将通道数减少了一半,i.e. cl+1 = cl/2 for l ∈ {1, · · · , N l }。在第(Nl − k + 1)解码层,g-k使用与f-l相反的方式解码,gk : Rw×h×c k+1 → R w×h×c k 扩展输入的通道数从c_k+1 到c_k,在解码器的最后一层回复X的原始通道数到C1.于是自动编码器可以表示成AE(X) ≡ g1 (· · · (g N l (f N l (· · · (f 1 (X))))) ∈ R w×h×c1,对于原始卷积特征图X∈Rw×h×c1。自动编码器中的压缩特征映射定义为Z≡fN l(···(f1(X)))∈Rw×h×c Nl +1。所有卷积层之后是ReLU激活函数,其卷积滤波器的大小设置为3×3。

  预训练

  expert auto-encoders的预训练阶段分为三个部分,每个部分都有不同的用途。首先,我们使用所有训练样本训练 auto-encoders AE0,以找到与上下文无关的初始压缩特征图。然后,我们对AE0得到的初始压缩特征图执行上下文聚类,以找到Ne个依赖于上下文的集合。最后,这些集合被用于训练expert auto-encoders,利用其中的一个集合初始化expert auto-encoders。

      使用基本自动编码器的目的有两个:使用与上下文无关的压缩特征图来聚类训练样本,并找到良好的初始权重参数,expert auto-encoders可以从中进行微调。基本自动编码器由原始卷积特征图{Xj} mj = 1训练,batch大小为m。X j来自VGG-Net卷积层的输出,输入图像为来自诸如ImageNet的大图像数据库的随机选择的训练图像。

       为了使基本自动编码器对外观变化和遮挡更加鲁棒,我们使用两个去噪标准来帮助捕获输入分布中的不同结构(如图3所示)。第一个去噪准则是一个通道破坏过程,其中随机选择固定数量的特征通道,并将这些通道的值设置为0。移除了这些通道的所有信息,并且训练自动编码器以恢复该信息。第二个标准是交换过程,其中卷积特征的一些空间特征向量是随机互换的。由于特征向量的感受域覆盖图像内的不同区域,因此交换特征向量类似于在输入图像内交换区域。因此,交换背景区域和目标区域的特征向量起到了类似遮挡目标的效果。我们记{ X̌ j } mj=1是经过两步去噪之后的批次。然后我们可以通过最小化 原始的特征图和输入去噪特征图自动编码生成的特征图的距离,来训练基础的自动编码器。

        当只考虑基本自动编码器的输入和最终输出之间的距离时,经常会出现过拟合和不稳定的训练收敛。为了解决该类问题,设计了一个新的损失函数:这个损失由部分自动编码器的输入和输出的距离组成。部分自动编码器{AEi (X)} Ni=1 仅包含其原始自动编码器AE(X)的一部分编码和解码层,而输入和输出大小与原始自动编码器的大小一样,i.e. AE 1 (X) = g 1 (f 1 (X)),AE 2 (X) = g 1 (g 2 (f 2 (f 1 (X)))), · · · when AE(X) =g 1 (· · · (g N l (f N l (· · · (f 1 (X)))))).因此,基于多级距离的损失可以描述为

其中AE i o(X)是AE o(X)的第i个部分自动编码器,并且m表示批量大小。

  根据由基本自动编码器压缩的各个样本的特征图,对训练样本{I j} Nj = 1进行聚类,其中N表示训练样本的总数。为了避免由于聚类得到簇太小而导致expert auto-encoders过度拟合,我们引入了两步聚类算法,避免了小簇。

        第一步,我们找到2Ne样本,这些样本是从基本自动编码器压缩的特征图中随机选择的(请注意,这是所需群集量的两倍,Ne为指定的聚类个数)。我们重复1000次随机选择,找到其中欧几里德距离最大的样本作为初始质心。然后,使用k = 2Ne,对所有样本的压缩特征图像使用K-means进行聚类;

        第二步,我们在得到的2NE个聚类中心,去除其中的NE个小的聚类中心。然后在使用这些聚类中心聚类,这样就保证了每个类都有足够多的样本,防止过拟合。我们将I j的聚类索引表示为dj∈{1,...,N e}。第d个expert auto-encoders AE-d是有基本的自动编码器在第d簇上微调后得到的。训练过程(包括去噪标准)与训练样本中的基本自动编码器不同。

        2、基于上下文的网络 Context-aware Network

        结构:上下文感知网络选择在上下文中最适合给定跟踪目标的expert auto-encoders,我们采用预先训练的VGG-M模型[3]用于上下文感知网络,因为它包含来自ImageNet预训练的大量语义信息。输入是一张224*224的RGB图片,上下文唤醒网络,先是有三个卷积层组成{conv1,conv2,conv3},后面跟了3个全连接层{fc4,fc5,fc6},其中{conv1,conv2,conv3,fc4}与VGG-M中相对应的层相同。fc5和fc6的参数以均值为0的高斯分布随机初始化。fc5之后是RELU,有1024个输出节点.最后,fc6具有Ne个输出节点并且与softmax层组合以估计每个expert auto-encoders适合于跟踪目标的概率。

       预训练:

上下文感知网络将训练样本I j作为输入,并输出属于簇索引d j的该样本的估计概率。它通过批量{I j,d j} mj = 1的图像/聚类索引对进行训练,其中m 0是上下文感知网络的小批量大小。通过预训练,调整{conv1,conv2,conv3,fc4}的参数,训练{fc5,fc6}的权重,通过最小化多类损失函数L-pr使用随机梯度下降。

H表示交叉熵损失,h(Ij)是上下文唤醒网络h,预测的Ij属于的簇的索引。

      3、协同过滤Correlation Filter

      先简要介绍使用单通道特征映射的传统相关滤波器的功能。基于傅立叶域中的循环矩阵的性质,可以快速训练相关滤波器,这导致在低计算负荷下的高性能跟踪器。给定矢量化单通道训练特征图z∈Rwh×1,从2-D高斯窗口获得矢量化目标响应图y,其大小为w×h和方差σy2,矢量化相关滤波器w可以通过以下方式估算:

其中ŷ和ẑ分别代表y和z的傅里叶变换矢量,ẑ∗是z的共轭向量,代表逐元素相乘。F ^(−1)代表代表逆傅里叶变换函数,λ是预定义的正则化因子。对于矢量化单通道测试的特征图z0∈wh×1R,矢量化响应图r可以通过以下方式获得:

      然后,在从r重建2-D响应图R∈Rw×h之后,从R的最大峰值位置找到目标位置。 

      4、跟踪过程Tracking Process

      初始适应过程包含以下部分:

我们首先从初始帧提取包括目标的感兴趣区域(ROI),并且由上下文感知网络选择适合于目标的expert auto-encoders。然后,使用从ROI增强的训练样本的原始卷积特征图来微调所选择的expert auto-encoders。当我们从微调expert auto-encoders获得压缩特征图时,它的一些通道代表背景对象而不是目标。因此,我们引入了一种算法来查找和删除响应背景对象的通道。

       感兴趣区域提取:ROI以目标的初始边界框为中心,比目标的大小大2.5倍,覆盖附近区域。然后,我们将宽度W和高度H的ROI调整为224×224,以匹配VGG-Net的预期输入大小。这使ROI区域变成了在RGB颜色空间上的I (1) ∈ R 224×224×3。对于灰度图像,灰度值被复制到三个通道上,得到I(1)。使用上下文感知网络h根据初始目标的上下文信息选择用于跟踪场景的最佳expert auto-encoders,并且我们可以将该自动编码器表示为AEh(I)。

初始样本增强:即使我们使用前面描述的两个去噪标准,我们发现expert auto-encoders的压缩特征图也存在使目标变得模糊或被翻转的问题。因此,在微调所选expert auto-encoders之前,我们以多种方式增强I(1)。为了解决模糊问题,通过用具有方 差{0.5,1.0,1.5,2.0}的高斯滤波器对I(1)进行滤波来获得四个增强图像;分别通过围绕垂直轴和水平轴翻转I(1)来获得另外两个增强图像。然后,从增强的(1)样本中提取的原始卷积特征图可以表示成

微调: 所选自动编码器的微调与expert auto-encoders的预训练过程不同。由于缺乏训练样本,优化很少在应用去噪标准时收敛。相反,我们使用相关滤波器正交性损失L ad,其考虑从expert auto-encoders的压缩特征图估计的相关滤波器的正交性,其中L定义为:

其中 

由方程(3)估计的矢量化相关滤波器,其使用来自所选expert auto-encoders的压缩特征映射(1)fi(···(f 1(X j)))的矢量化第k个通道。 相关滤波器正交性损失允许增加相关滤波器之间的相互作用,如从压缩特征图的不同信道估计。通过使用随机梯度下降最小化L ad的区别在补充材料的附录A中描述。

背景频道删除:压缩特征映射Z∀可以从微调expert auto-encoders获得。然后,我们删除Z∀内的通道,这些通道在目标边界框之外有大的响应。通过估计通道中前景和背景特征响应的比率来找到这些通道。首先,我们估计通道k的特征响应的 channel-wise比率为

是特征图第K个通道的特征图,是特征图第K个通道将bounding box之外的区域设置为0得到的。然后,在按照ratio-k以降序对所有信道进行排序之后,仅将压缩特征映射的前N c个信道用作相关滤波器的输入。我们将得到的特征图表示为Z∈RS×S×N c,其中S是特征尺寸。

         5、在线跟踪顺序Online Tracking Sequence

         相关滤波器估算和更新:我们首先使用与初始适应中相同的方法获得当前帧t的调整后的ROI,即,调整后的ROI以目标的中心为中心,其大小是目标大小的2.5倍并且调整为224×224。在将调整后的ROI馈送到VGG-Net之后,得到原始深度卷及特征,通过将VGG-Net的原始深度卷积特征图输入到自适应expert auto-encoders中,我们获得压缩特征映射

之后我们使用等式3,我们估计独立的相关滤波器的参数,根据每个特征图 的第K个通道. 是特征图的第K个通道。参照【16】的方法,我们通过将每个与相同大小的余弦窗口相乘来抑制背景区域。 对于第一帧,我们可以根据使用方程(3)估计相关滤波器

对于之后的帧(t> 1),相关过滤器更新如下: 

 其中γ是插值因子。

       跟踪:在估计相关滤波器之后,我需要寻找t帧物体的位置。由于我们假设接近前一帧中的目标位置,我们从与前一帧的相关滤波器估计的ROI相同的位置提取跟踪ROI。这样我们就可以得到由适应的expert auto-encoder生成的特征压缩图用于追踪,把用于等式(4),得到通道处理过的相应图(我们以与相关滤波器估计相同的方式应用余弦窗的乘法)。

我们需要将组合成综合相应图。我们使用加权平均方案,其中我们使用验证分数作为权重因子。

 

是一个S*S的高斯窗口,方差的峰值为中心。然后,综合响应图计算如下:

跟[5]一样,我们通过在峰值位置附近内插响应值来找到子像素目标位置。 最终目标的位置由计算:

       

       尺度变换:为了处理目标的比例变化,我们提取了两个额外的ROI补丁,这些补丁是从先前的ROI补丁大小缩放的,在跟踪序列中分别具有缩放因子1.015和1.015^(-1)。选择新的目标比例作为响应图(来自缩放的ROI)的相应最大值最大的比例。

       完全遮挡处理:为了处理完全遮挡,采用了重新检测算法。 总体思路是引入所谓的重新检测相关滤波器,该滤波器未被更新并且在检测到遮挡时应用于目标的位置。当如上所述检测到最大(t)响应值Rmax≡max(R(t))的突然下降时,假设完全遮挡。如果满足该条件,则将时间(t-1)处的相关滤波器用作重新检测相关滤波器。在下一个N帧期间,如果重新检测滤波器的响应图的最大值大于由正常相关滤波器获得的响应图的最大值,则使用由重新检测相关滤波器确定的目标位置。

 

 

参考链接:

1、https://blog.csdn.net/qq_34135560/article/details/83755395

2、https://blog.csdn.net/ms961516792/article/details/81412356

3、https://blog.csdn.net/weixin_40645129/article/details/81173088

おすすめ

転載: www.cnblogs.com/jimchen1218/p/11978461.html