オブジェクト追跡のための完全畳み込みシャム ネットワーク(SiamFC)

オブジェクト追跡のための完全畳み込みシャム ネットワーク(SiamFC,ECCV2016)

完全畳み込みネットワークの利点は、より大きな検索画像をネットワークへの入力として供給でき、テンプレートと同じサイズの画像を提供するのではなく、変換されたすべてのサブウィンドウの類似性を 1 回の評価で計算できることです。画像をご確認ください。

ここに画像の説明を挿入

テンプレートブランチの入力画像サイズは 127×127×3、検索ブランチの入力画像サイズは 255×255×3 であり、特徴抽出ネットワーク(著者は AlexNet のネットワーク構造を採用)後のテンプレートは、それぞれ6×6×128が得られ、特徴マップと22×22×128の検索特徴マップとを相互相関させて17×17×1の応答マップを生成する。

ここに画像の説明を挿入

特徴マップの計算式: (W - F + 2P) / S + 1 --> 畳み込み層はパディングを使用しないため、P=0

大きな検索画像を使用した列車

正と負のサンプルの識別方法が採用され、ロジスティック損失がネットワークのトレーニングに使用されます。

ここに画像の説明を挿入

ここで、 y∈{+1, -1} は実際のラベルです、vvvはネットワークによって出力される単一の応答値です (DD)Dは生成された応答グラフです。uuあなたはDDですDの値∣ D ∣ |D|D ∣ は応答グラフのサイズです。応答グラフのラベル値は、次の式に従って取得されます。

ここに画像の説明を挿入

実際的な考慮事項

各フレームのテンプレート画像と検索画像は、トレーニング中の画像のサイズ変更を避けるためにオフラインで取得されます。テンプレート画像のサイズは、次の式に従って計算できます。

ここに画像の説明を挿入

其中 A = 12 7 2 A=127^2 =12 72( w , h ) (w , h)( w h )は画像の幅と高さ、sssは画像の変換です。つまり、最初に (w+2p)×(h+2p) を拡張し、次にそれを 127×127 のサイズにリサイズします。

探索画像は前フレームの予測ボックスの中心をクロップ中心とし、255×255の画像をクロップする。

テンプレート画像と検索画像だけでは切り抜くことができない場合、画像の RGB チャンネルの平均値で埋められます。埋め込み効果は次のとおりです。

ここに画像の説明を挿入

ネットワークは最終的に 17×17 のヒート マップを生成し、入力された検索画像は 255×255 です。マッピング関係を実現するために、著者は 17×17 の応答マップに対してバイキュービック補間を実行して 272×272 の画像を生成して決定します。ターゲットの位置。

おすすめ

転載: blog.csdn.net/weixin_48158964/article/details/131499739