リアルタイム視覚追跡のためのより深くより広いシャムネットワーク(SiamDW)

リアルタイム視覚追跡のためのより深くより広いシャムネットワーク(SiamDW,CVPR2019)

この論文は、多数の実験を通じて、シャム系列の追跡においては、ネットワークのパフォーマンスに大きな影響を与えるいくつかの要因があることを発見しました。すなわち、受容野のサイズ、ネットワークのステップサイズ、ネットワークの有無です。パディング (Padding) の、最後の層の出力の特徴マップ サイズは です。

著者は、Siamese ネットワークをトラッキングに使用するときに従うべきいくつかのガイドラインを要約し、ネットワークをより深くするために独自のガイドラインに従って CIR モジュールを設計し、それを SiamFC および SiamRPN (SiamFC+ および SiamRPN+ として表現) に適用しました。 SOTAの効果が得られました。

既存の強力なネットワーク アーキテクチャ (ResNet、Inception など) を直接使用して、Siamese ネットワークの AlexNet バックボーンを置き換えても、パフォーマンスの向上はもたらされず、ネットワークの深さや幅が増加すると、パフォーマンスの急激な低下につながることさえあります。その主な理由は次のようなものであると著者は考えています。

  • 著者は、ニューロンの受容野が大きくなると、特徴量の文脈は大きくなるものの、抽出される特徴量の弁別性や位置決め精度が低下する、つまり対象そのものの局所情報や識別情報が低下すると考えており、特徴 マップの隣接するピクセルの重なりが大きすぎる、つまり特徴の冗長性が大きく、受容野が小さいと十分な文脈情報が得られず、機能の抽象化だけでは十分ではありません。したがって、著者は、受容野のサイズはサンプル画像のサイズに関連しており、サンプル画像の60%〜80%が望ましいと指摘しました。
  • 著者らは、ニューラル ネットワークのパディングが学習における位置バイアスにつながると主張しています。

ここに画像の説明を挿入

上の表から次のことがわかります。

  • ストライド (STR):
    ネットワーク ストライド (STR) が 4 または 8 から 16 に増加すると、ネットワーク パフォーマンスが大幅に低下します (AlexNet と VGG の場合は⑩③⑨、Incep と ResNet の場合は②⑧⑨)。これは、Siamese Tracker が高レベルの特徴 (ストライド ≥ 16) よりもオブジェクトの位置特定においてより正確である中レベルの特徴 (ストライド 4 または 8) を好むことを示しています。
  • 受容野 (RF):
    受容野 (RF) のスケールが最大の場合、最適なスケール範囲は小さくなります。具体的には、AlexNet の場合は 87-8 (Alex⑦) から 87+16 ピクセル (Alex③) の範囲であり、Incep-22 の場合は 91-16 (Incep⑦) から 91+8 (Incep③) ピクセルの範囲になります。VGG-10 および ResNet-17 も同様の現象を示します。この場合、最適な受容野サイズは入力画像の Z サイズの約 60% ~ 80% (91 対 127) です。
    この研究では、この比率はさまざまなネットワークに対してロバストであり、その構造の影響を受けません。これは、RF のサイズがシャム フレームワークへの特徴埋め込みにとって重要であることを示しています。基本的な理由は、受容野 RF が特徴の計算に使用される画像領域を決定するためです。
    広い受容野は画像の背景の大部分をカバーするため、抽出された特徴はオブジェクトの空間的位置の影響を受けなくなります。逆に、受容野が小さいと物体の構造情報を捕捉できない可能性があるため、照合の際の識別力が低くなります。したがって、特定のサイズ範囲内の RF のみがオブジェクトを特徴付けるための特徴抽出を可能にし、その理想的なサイズはサンプル画像のサイズと密接に関係します。
  • 出力特徴サイズ (OFS):
    出力特徴サイズ (OFS) では、サイズが小さい (OFS ≤ 3) と追跡精度が良くないことがわかります。これは、小さな特徴マップにはターゲット オブジェクトの十分な空間構造の記述が不足しており、したがって画像の類似性の計算において十分に堅牢ではないという事実によるものです。
  • ネットワーク パディング (PAD):
    AlexNet と VGG⑤⑥、Incep と ResNet の④⑤ から、ネットワーク パディングが最終パフォーマンスに大きな悪影響を与えることがわかります。Siamese ネットワークは、サンプルと検索画像のペアをトレーニング データとして提供し、マッチングのための埋め込み特徴を学習します。ネットワークにパディング操作が含まれている場合、サンプル イメージの埋め込み特徴は、元のサンプル イメージに従来の (ゼロ) パディング領域を加えたものから抽出されます。違いは、画像に対して検索された特徴の場合、一部の特徴は画像コンテンツ自体からのみ抽出されるのに対し、一部の特徴は画像コンテンツに加えて境界近くの特徴などの追加の (ゼロで埋められた) 領域から抽出されることです。したがって、検索画像内の異なる位置で発生するオブジェクトの埋め込み間に不一致が発生し、一致類似性比較の低下につながります。

上記の分析に基づいて、ネットワーク アーキテクチャに対する構造的要因の悪影響を軽減するための 4 つの基本原則が要約されています。

  1. Siamese Tracker は比較的小さなネットワーク ストライドを好みます
  2. 出力特徴の受容野は、サンプル画像のサイズとの比率に従って設定する必要があります。
  3. ネットワーク アーキテクチャを設計するときは、ネットワーク ストライド、受容野、出力特徴のサイズを全体として考慮する必要があります。
  4. 完全に畳み込み型のシャム ネットワークの場合、2 つのネットワーク ストリーム間の知覚的な不一致に対処することが重要です。

新しいモジュール Cropping-Inside Residual (CIR) 単位:

  • CIR ユニット: クロッピング操作を使用して残差ユニットを強化します。つまり、特徴の追加が完了した後にクロップ操作を追加します。クロッピング オペレーターは、ゼロ パディング信号の影響を受ける特徴を削除します。ボトルネック レイヤーのパディング サイズは 1 であるため、最もエッジのフィーチャのみが削除されます。この単純な操作により、残りのユニット内のパディングの影響を受けた特徴が大幅に削除されます。
  • ダウンサンプリング CIR (CIR-D) ユニット: ダウンサンプリング残差ユニットも、ネットワーク設計における重要な構成要素です。これは、特徴チャネルを 2 倍にしながら、特徴マップのスペース サイズを削減するために使用されます。このモジュールにはパディングも含まれているため、クロップ操作も使用されます。著者は畳み込みのステップ サイズを 2 から 1 に設定します。これらの変更の重要な点は、内部モジュールの構造は変更せずに、パディングによって生じる機能のみが確実に削除されるようにすることです。
  • CIR-Inception ユニットと CIR-NeXt ユニット: 著者は、この構造を使用してマルチブランチ構造を構築し、幅広いネットワークを構築できるようにしています。

概要: この記事は Siamese Tracking の記事を再現したもので、バックボーンとして AlexNet などの浅いネットワークのみを使用していることがわかりますが、検出や分類などの他のタスクでは、ResNet などの機能が AlexNet よりもはるかに強力であることがわかります。そこで著者は、効果を向上させることを期待して、ResNet や Inception などのより深く幅広いバックボーンを実験しました。しかし、効果は増加するどころか減少してしまうという新たな問題が発生し、制御変数法を設計し、効果が減少する要因を解析する実験を行った。したがって、次のような問題と解決策があります。

おすすめ

転載: blog.csdn.net/weixin_48158964/article/details/131554168