[論文概要] ロバストなオプティカル フローのための Cross-Attentional Flow Transformer (CVPR 2022)

1. 論文の簡単な紹介

1. 筆頭著者: Xiuchao Sui、Shaohua Li

2.発行年: 2021年

3. 雑誌発行: arxiv

4. キーワード:オプティカル フロー, トランスフォーマー, 自己注意, 交差注意, 相関量

5. 探索の動機:畳み込みの局所性と厳密な重みにより、限られたコンテキスト情報がピクセルの特徴に組み込まれ、計算された相関は非常にランダムであるため、高い相関値のほとんどが偽の一致であるため、処理が困難です。モーション ブラーによる大きな変位。

  1. 最新の方法はベンチマーク データでは非常に正確ですが、モーション ブラーを伴う大きな変位などの特定の条件下では、フロー エラーが依然として大きくなる可能性があります。
  2. 現在のパラダイムは、2 つの畳み込み特徴ベクトルの内積としてペアワイズ ピクセルの類似性を計算します。畳み込みの局所性と厳密な重みにより、限られたコンテキスト情報がピクセルの特徴に組み込まれ、計算された相関は高レベルのランダム性に悩まされ、高い相関値のほとんどが偽の一致になります。相関関係のノイズは、入力画像のノイズ (テクスチャの損失、照明の変化、モーション ブラーなど) とともに増加します。当然のことながら、ノイズの多い相関は、画像マッチングの失敗や不正確な出力フローにつながる可能性があります。この問題は、変位が大きい場合に顕著になります。ノイズの多い相関を減らすと、フロー推定が大幅に改善される可能性があります。

6. 仕事の目標:上記の問題を ViT を通じて解決すること。

畳み込みに対するビジョン トランスフォーマー (ViT) の重要な利点は、トランスフォーマー機能が、コンテンツに基づく動的な重みを持つピクセルに対応することにより、グローバル コンテキストをより適切にエンコードすることです。オプティカル フロー タスクの場合、有用な情報は、クリア エリアからぼやけたエリアに、または非オクルージョン エリアからオクルード エリアに伝播して、後者のフロー推定を改善できます。最近の研究では、ViT は特徴マップの空間平滑化を行うローパス フィルターであることが示唆されています。直感的には、Transformer Self-Attention の後、同様の特徴ベクトルが互いに重み付けされた合計を取り、不規則性と高周波ノイズを平滑化します。

7. コアアイデア:新しいオプティカルフロー推定構造である「Cross Attention Optical Flow Transformer (CRAFT)」を提案しました。CRAFT は、相関ボリュームの計算を簡素化する 2 つの新しいコンポーネントを採用しています。さらに、さまざまなモデルの大きな動きに対するロバスト性をテストするために、入力画像をシフトすることによって大きな人工的な動きを生成するイメージ シフト攻撃が設計されています。

  1. セマンティック スムージング トランスフォーマー レイヤーは、1 つの画像の特徴を融合し、よりグローバルで意味的に滑らかにします。
  2. クロスフレーム アテンション レイヤーは、相関計算の内積演算子に取って代わります。これは、計算された相関がより正確になるように、クエリとキーのプロジェクションを介して追加レベルの機能フィルタリングを提供します。

8. 実験結果: SOTA

  1. Sintel (Final) および KITTI (foreground) ベンチマークで、CRAFT は新しい最先端 (SOTA) のパフォーマンスを達成しました。
  2. さらに、大きな動きに対するさまざまなモデルの堅牢性をテストするために、入力画像をシフトして大きな人工的な動きを生成する画像シフト攻撃を設計しました。動きの大きさが大きくなるにつれて、CRAFT は堅牢に機能しますが、2 つの代表的な方法である RAFT と GMA は大幅に劣化します。

9. 論文のダウンロード:

https://openaccess.thecvf.com/content/CVPR2022/papers/Sui_CRAFT_Cross-Attentional_Flow_Transformer_for_Robust_Optical_Flow_CVPR_2022_paper.pdf

https://github.com/askerlee/craft

2. 実施プロセス

1.CRAFTの概要

ネットワークはRAFTの配管を継承しています。主な貢献は、2 つの新しいコンポーネントによって関連するボリューム計算部分 (破線の緑色の四角形) を復元することです: フレーム 2 機能のセマンティック スムーズ トランスフォーマーと、関連するボリュームを計算するためのクロス フレーム アテンション レイヤー。赤い枠。これらの 2 つのコンポーネントは、相関ボリュームで誤った相関を抑制するのに役立ちます。下部の GMA モジュールは、Global Motion Aggregation モジュールです。

2.セマンティックスムーサー

フレーム 1 とフレーム 2 の 2 つの連続する画像が入力として与えられると、オプティカル フロー パイプラインの最初のステップは、畳み込み特徴ネットワークを使用してフレーム特徴を抽出することです。フレーム フィーチャをより優れたグローバル コンテキストで拡張するために、フレーム 2 フィーチャはセマンティック スムージング トランスフォーマー (略して SSTrans) を使用して変換されます。さまざまな機能によりよく適応するために、一般的に使用されるマルチヘッド アテンション (MHA) の代わりに、拡張アテンションが SSTrans として採用されます。高容量のハイブリッド システムである Extended Attention は、画像セグメンテーション タスクにおいて MHA よりも優れていることを示しています。

Extended Attention (EA) レイヤーは N 個のモード (サブトランスフォーマー) で構成され、動的モード アテンションを使用して単一のセットに集約される N 個の機能セットを計算します。

ここで、B(k) はパターン アテンション スコアであり、パターン アテンション確率 G はパターン次元に沿ったすべての B(k) のソフトマックスです。出力フィーチャ EA(X) は、すべてのパターン フィーチャの線形結合です。フレームの元の機能をよりよく維持するために、重み w1 を持つ学習可能な重み付きスキップ接続を追加します。

空間バイアスを課すために、従来の位置埋め込みは意味のあるバイアスを形成せず、代わりに相対的な位置バイアスを使用することがわかりました。バイアスは、計算された注意に追加される行列 B ∈ (2r+1)×(2r+1) です。ここで、r はバイアスの局所的な範囲を指定する半径です。

具体的には、元の注意行列が 4 次元テンソル A ∈ H × W × H × Wに再形成されたとします。ここで、H、W はフレームの特徴の高さと幅です。i,j の各ピクセルについて、A(i,j) は、ピクセル (i,j) と同じフレーム内のすべてのピクセルとの間の注意の重みを指定する行列です。ピクセル (i,j) の半径 r の近傍に相対位置バイアス b を追加します。

実装では、選択されたモードの数は 4 であり、相対位置オフセットの半径 r は 7 です。下の図は、Sintel トレーニング中の CRAFT の相対位置バイアスを視覚化したものです。2 つの興味深いパターンが観察されました。 

  1. 最小のバイアス値は (0,0) で約 2 です。これは、ピクセル (i,j) の新しい特徴を計算するときに、このバイアス項がそれ自体の特徴の重みを 2 減らすことを意味します。この項がないと、特徴ベクトルがそれ自体に最も類似しているため、ピクセル (i, j) 自体の注意の重みが他のピクセルの重みを支配する可能性があります。この用語は、組み合わされた出力特徴におけるピクセルの古い特徴の割合を減らし、他のピクセルからの新しい情報の流入を効果的に促進します。
  2. 最大の重みは、中央のピクセルから 2 ~ 3 ピクセル離れたところにあります。つまり、これらの周囲のピクセルの特徴は、中央のピクセルの特徴を補うために最も頻繁に使用されます。

これらの 2 つの観察結果は、下の図で確認されています。下の図は、クエリ ポイント (赤い四角形) と同じ画像内のすべてのピクセルの間の SS トランスフォーマーの自己注意のヒートマップです。最も密度の高い領域は、クエリ ポイントが最も注意を払い、特徴を抽出して自分自身を豊かにする場所です。位置バイアスを 0 に設定すると、パフォーマンスが低下します。

両方のフレームの機能にトランスフォーマーを適用したくなることがあります。ただし、実験では、そうするとパフォーマンスが低下しました。この仮説は、画像マッチングが局所的および構造的な高周波 (HF) 機能に大きく依存しているという一般的な信念に基づいています。同時に、大量の高周波ノイズが情報の特徴を汚染し、マッチングを妨げます。SSTrans は短波ノイズを抑制するローパス フィルターとして機能しますが、同時に HF 特性を低減し、低周波 (LF) 特性を強化します。したがって、モデルは、フレーム 1 に一致するようにフレーム 2 の LF 成分と HF 成分をトレードオフすることを学習します。両方のフレームに SSTrans を適用すると、両方のフレームに含まれる HF 成分が少なくなり、LF 成分が多くなります。それらを一致させると、多くの偽の相関が生成され、オプティカル フローの精度が損なわれる可能性があります。この直感は、下の図で確認されます。Sintel (最終パス) テスト セットのフレーム 2 とフレーム 1 のクエリ ポイント間の相関。画像はトリミングされています。標準の CRAFT セットアップ ("Single SSTrans") では、ノイズ相関が最小限です。「Double SSTrans」は、より多くのノイズ相関を生成しました。

3. 関連ボリュームのフレーム間注意

現在のパラダイムでは、相関ボリュームは、フレーム全体のピクセル マッチングの基礎となります。フレーム特徴 f1 と f2 を計算した後、相関ボリュームは 4D テンソル ∈ H×W×H×W として計算されます。従来、相関ボリュームは、f1 と f2 のペアワイズ ドット積として計算されます。

概念的には、相関ボディは本質的に、クエリとキー プロジェクションによる機能変換を伴わない Transformer 内の相互注意です。クエリ/キー プロジェクションは、相関のために最も有益な機能を選択する機能フィルターと見なすことができます。さらに、さまざまな相関関係を取得するために、Extended Attention (EA) と同様に、複数のクエリとキー プロジェクションを使用できます。同様の多面的な相関関係は、複数のチャネルを持つ VCN で追求されます。これらの利点により、記事は内積を単純化された EA に置き換えるようになりました。

ここで、Q k、K k はそれぞれ k 番目のクエリとキー プロジェクションであり、C k (i, j, m, n) は k 番目のモードで計算された相関です。Softmax オペレーターは、k 個のモダリティを取り込み、k 個の相関を集約します。ここで、EA は、値の予測とフィードフォワード ネットワークを削除することによって単純化されます。2 つのフレーム間の相関関係が対称であるため、 Q kと K kの重みが共有されます。

グローバル相関の正規化。場合によっては、関連するボリュームに極値が表示され、ピクセル マッチングが妨げられることがあります。ピクセルを一致させるためには、直観的に、候補ピクセルの相関の相対的順序が絶対相関値よりも重要です。これに基づいて、相関を安定させるために、相関ボリューム全体に対してレイヤーの正規化が実行されます。経験的に、これによりパフォーマンスがわずかに向上します。

4. 損失関数

RAFT と同じで、重み付けされた複数の反復 L1 損失を採用しています。

5.実験

5.1. 実装の詳細

注意力の重みと関連オブジェクトの相関関係をヒートマップで評価するのは説得力があります。また、シフティングアタックは、ネットワークの優位性を証明するために変位を移動するように設計されています。

5.2. 先進技術との比較

5.3. アブレーション実験

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/130050948