視覚追跡のための学習再発フィルター

貢献

  1. 情報ラインをキャプチャするように、フレームの空間と時間を学習小説再発フィルタを提案し、(追跡に)微調整を必要としません。
  2. 具体的には、メモリセルとして、初期化とターゲットの外観を更新する効率的かつ効果的な方法の設計は、CONVのLSTM更新対象が明らかです

    ネットワークアーキテクチャ

    ここに画像を挿入説明
    グラウンドトゥルースから作物に使用すると、模範オブジェクト許可(E_ {T}の\)\を(* 127 * 127。3)E-CNN(模範特徴抽出)を介して標本機能を与えるために、\(E_ {T} \)(6 * 6 * 256)、入力CONV-LSTMとして、受信CONV-LSTM \(E_ {T} \) また、ステータス隠された状態で受信\(H_ {T-1} \)と電池状態\を(C_ {T-1} \ )、隠された状態の現在の状態を生成する)\(H_ {T}を\(6 * 6 * 1024)及び電池状態\(C_ {T} \)隠された状態(図6 * 6 * 1024)によって産生さ\(H_ { T} \)出力層を介して(1 * 1 * 256コンボリューションカーネル)を生成するフィルタオブジェクト\(F_ {T} \)(6 * 256 * 6)、次のフレーム画像検索で\(Tの+。S_の1 { } \) * 3 * 255(255)、検索画像特徴(22 * 22 *後に得た 256) 相関のためにS-CNNの特徴抽出操作後(畳み込み実際)応答マップ得\(R_ {T}を\) 図17 * 17)

S-CNNとE-CNN

ネットワークに示すように、異なるパラメータを持つS-CNN E-CNNは、(そのような実験は効果が最良であることを示す)、畳み込みネットワーク構造は同じである
ここに画像を挿入説明
ネットワークは、加速度と収束後のCONV BatchNormalization、コンバージョン-5を除いて、活性化するために使用されています機能ReLu

畳み込みLSTM構造

ここに画像を挿入説明
LSTM同様の構造元の構造に、しかし畳み込みプラスSIGMOD層(3×3フィルタ)の前に、に格納された画像の空間構成
ここに画像を挿入説明
初期化状態セル\(C_ {0} \) 隠れ状態\(H_ {0} \ ) CNN-Eで抽出模範最初のフレーム\(E_ {0} \)は、次いで、コンボリューション(3 * 3 * 1024)CONVのフィルタ初期化が完了した後TANHを行います。

損失のfuction

ここに画像を挿入説明
ここに画像を挿入説明

トレーニングの詳細

ミニBATCHSIZE 10個のビデオクリップ10の長さは、拡張データを、ランダムな干渉色、画像のミラーリング、延伸、

オンライン追跡

我々は、スケールビルドピラミッドにBBox回帰を使用していないが、目標位置と最大位置を選択し、バイキュービック補間を用いて行うこと、および
\(R ^ {M}( F_ {T}、S_ {T + 1})=のF_ {T + S_ {T *} 1} ^ m個の\)
\(V ^ Mの\)がマップ応答である\(R&LT ^ Mの\)スケールにおけるmの最大値。
見出さ\(V ^ Mの\)の最大寸法こと
で、次元Mを取得する前に、k番目の位置の平均スコア
\(^ {P} = * \ K FRAC {} {}。1 \ SUM \ limits_ {K} ^ {K}}} {P_ {k個の\)

おすすめ

転載: www.cnblogs.com/Zak-NoS/p/10941822.html