シャム地域提案ネットワーク(SiamRPN)による高性能ビジュアルトラッキング

シャム地域提案ネットワークによる高性能ビジュアルトラッキング(SiamRPN,CVPR2018)

主な貢献:

  • SiamRPNトラッカーが提案され、エンドツーエンドのオフライントレーニング手法が大規模画像追跡タスクに初めて適用される
  • オンライン追跡プロセスでは、従来のマルチスケール検出方法を効果的に改善できるローカルショット検出方法が提案されています。
  • VOT2015、VOT2016、VOT2017 で 160FPS で最高のパフォーマンスを達成

ここに画像の説明を挿入

全体的なネットワーク構造は 2 つの部分に分けることができます。

  • Siamese Network: 基本的に SiamFC と同じですが、テンプレート ブランチと検索ブランチに分かれており、2 つのブランチは重みを共有します。
  • 領域提案ネットワーク: 2 つのブランチで構成され、1 つは背景からターゲットを区別するために使用される分類ブランチ、もう 1 つは正確な位置決めのために候補領域を微調整するために使用される回帰ブランチです。

アンカーの本質は、異なる形状とサイズの一連の長方形を出力することです。RPN サブネットワークでは、特徴マップ上の各ピクセルが k 個のアンカー (論文では k=5) を生成し、境界ボックスはこれらのアンカー ボックスを通じて回帰されます。

RPN サブネットワークでは、特徴抽出ネットワークを通じて取得されたテンプレート特徴マップと検索特徴マップが分類ブランチと回帰ブランチに送信され、その後 2 つのブランチでテンプレート特徴マップが 3 つのブランチを通過します。対応する特徴マップを取得するための ×3 畳み込み層。特徴マップは 4×4×(2k×256) および 4×4×(4k×256) であり、特徴チャネルは 256 から 2k×256 および 4k×256 に増加します。2k 倍する理由は、特徴マップの各ピクセルが k 個のアンカーを生成し、各アンカーが前景または背景として分類できるためです。同様に、4k 倍するのは、各アンカーが 4 つのパラメーター (x、y、w、h) を使用できるためです。 )について説明します。検索特徴マップは、対応する特徴マップを取得するために 3x3 畳み込み層も通過します。ここでのチャネル数は変更されず、つまり 256 のままです。

分類ブランチでは、2k 個のテンプレート画像アンカーの 4×4×256 がコンボリューション カーネルとして使用され、検索画像の 20×20×256 とコンボリューション演算 (相互相関) が実行されて分類が生成されます。 17×17×2k の応答マップ、応答マップ上の各点は 2k の次元を持つベクトルを表します。回帰分岐では、4k テンプレート画像アンカーの 4×4×256 が畳み込みカーネルとして使用され、検索画像の 20×20×256 に対して畳み込み演算 (相互相関) が実行され、17×17×4k の回帰応答マップが生成されます。応答マップ上の各点は 4k 次元のベクトルを表します。

トレーニング プロセス中、Cross Entropy Loss が分類ブランチの損失関数として使用され、Smooth L1 Loss が回帰ブランチの損失関数として使用されます。L1損失関数と比較して、Smooth L1はより速く収束できます;L2損失関数と比較して、外れ値や異常値の影響を受けにくく、勾配の変化が比較的小さいため、トレーニング中に逃げるのは簡単ではありません。

陽性サンプルと陰性サンプルの選択戦略: 高と低の 2 つのしきい値を設定します。0.6 より大きいものは陽性サンプル、0.3 未満のものは陰性サンプルです。1 組には 64 個のサンプルがあり、そのうち最大 16 個が陽性サンプルです。

ワンショット検出としての追跡:

ここに画像の説明を挿入

テンプレート ブランチは、最初のフレームを使用して、検出ブランチ (灰色で表示) 上の RPN サブネットワークのコンボリューション カーネルの重みを予測し、テンプレート ブランチをプルーニングして検出ブランチのみを残します。したがって、フレームワークはローカル検出ネットワークとして修正されます。

推論: 分類応答グラフ内の上位 K 個の陽性サンプルを選択し、対応するアンカーを取得してから、対応する回帰応答グラフ内の K 座標オフセットを取得し、最後にアンカーとこれらのオフセット値を介して予測値を取得します。これから K 個の提案が得られます。
K 個の提案から選択する必要があります。記事では 2 つの戦略が示されています。

  • 著者は、隣接するフレームターゲットの変位はそれほど大きくないと考えているため、分類特徴マップの中央領域の点のみが選択されます。
  • コサイン ウィンドウ (コサイン ウィンドウ) とスケール変更ペナルティ (スケール変更ペナルティ) を使用して、提案のスコアを再ランク付けし、最良のものを取得します。

これらの操作の後、分類スコアにタイム ペナルティが乗算され、上位 K 個の提案が再ランク付けされ、非最大抑制 (NMS) が実行されて最終的な追跡された境界ボックスが取得されます。最後の境界ボックスが選択された後、オブジェクトのサイズは線形補間によって更新され、形状の滑らかな変化が維持されます。

Supongo que te gusta

Origin blog.csdn.net/weixin_48158964/article/details/131507275
Recomendado
Clasificación