1. 論文の簡単な紹介

1.筆頭著者： Rui Li

2. 発行年： 2023年

3. 掲載雑誌： CVPR

4. キーワード：オプティカルフロー、ディープラーニング、PatchMatch、ローカルサーチ

5. 探索の動機:深層学習では、精度に加えて、特に高解像度でオプティカルフローを予測する場合、パフォーマンスとメモリも課題となります。計算の複雑さとメモリ使用量を軽減するために、以前の方法では粗いものから細かいものへの戦略が使用されていますが、低解像度のエラー回復の問題が発生する可能性があります。大きな変位、特に高速で移動する小さな物体に対して高精度を維持するために、RAFT は全ペア 4D 相関ボリュームを構築し、ルックアップに畳み込み GRU ブロックを使用します。ただし、高解像度のオプティカルフローを予測する場合にはメモリの問題もあります。

6. 作業目標:高精度を維持しながらメモリを削減するために、RAFT の 4D 全ペア相関ボリュームの高冗長計算に対処するために PatchMatch が導入されました。

7. 中心的なアイデア:精度の低下を引き起こすこのようなまばらなグローバル相関戦略を使用する代わりに、パッチマッチのアイデアを相関の計算に導入します。

私たちは、初めてエンドツーエンドのオプティカルフロー予測に Patchmatch を導入する効率的なフレームワークを設計します。相関量のメモリを削減しながらオプティカルフローの精度を向上させることができます。PatchMatch要求は高精度の光流を解決します。

新しい逆伝播モジュールを提案します。伝播と比較して、かなりのパフォーマンスを維持しながら、計算を効果的に削減できます。伝播の逆伝播を提案します。

8. 実験結果:

提出時点では、公開されているオプティカルフローメソッドの中で、当社のメソッドは人気の KITTI2015 ベンチマークのすべての指標で 1 位にランクされ、Sintel クリーンベンチマークの EPE で 2 位にランクされています。実験では、私たちの方法が強力なクロスデータセット汎化能力を備えていることを示し、F1-all は 13.73% を達成し、KITTI2015 で公開された最良の結果 17.4% から 21% 減少しました。さらに、私たちの方法は、高解像度データセット DAVIS で詳細を良好に保持する結果を示し、RAFT よりもメモリ消費量が 2 倍少なくなります。

9. 論文のダウンロード:

https://openaccess.thecvf.com/content/CVPR2022/papers/Zheng_DIP_Deep_Inverse_Patchmatch_for_High-Resolution_Optical_Flow_CVPR_2022_paper.pdf

https://github.com/zihuazheng/DIP

2. 導入プロセス

1.関連オブジェクトの比較

ローカル相関ボリューム。局所相関量に基づく最新のオプティカルフロー手法では、計算式は次のようになります。

この式では、F1 はソースフィーチャマップ、F2 はターゲットフィーチャマップ、d は x または y 方向の変位です。X = [0,H)x[0,w)、D=[−dmax,Dmax]2、h は特徴マップの高さ、w は特徴マップの幅です。したがって、関連するボリュームのメモリと計算は hw(2dmax + 1)2 で線形になり、検索空間の半径で 2 次になります。検索半径のサイズによって制限されるため、高解像度の難しいシーンで高精度のオプティカルフローを取得することは困難です。

グローバル相関ボリューム。最近、RAFT [36] は、最先端のパフォーマンスを実現する全ペア相関ボリュームを提案しています。F1 の位置 (i, j) と F2 の位置 (k, l) の大域相関計算は次のように定義されます。

ここで、m はピラミッド層の数です。2m はプーリングカーネルサイズです。ローカル相関ボリュームと比較すると、グローバル相関ボリュームには N2 個の要素が含まれています (N = hw)。F の h または w が増加すると、メモリと計算の量は指数関数的に増加します。したがって、グローバルメソッドでは、高解像度の推論を行うにはメモリが不足します。

ブロックマッチング（パッチマッチ方式）。パッチマッチは、構造化編集のために画像間の密な対応を見つけるために使用されます。その背後にある重要なアイデアは、大量のランダムサンプリングを行うことで、適切な推測を得ることができるということです。また、画像の局所性に基づいて、適切な一致点が見つかると、その情報が隣接する画像に効果的に伝播されます。したがって、検索半径を減らすために伝播戦略が提案され、精度をさらに向上させるためにローカル検索が使用されます。Patchmatch 法の複雑さは hw(n + r2) であり、n は伝播数、r はローカル検索半径であり、両方の値は小さく、変位と解像度が増加しても変化しません。

2.オプティカルフローのパッチマッチ

従来の Patchmatch アプローチには 3 つの主要なコンポーネントがあります。1) ランダムな初期化。多数のランダムサンプリングを使用して、適切な推測を取得します。2) 広がる。画像の局所性に基づいて、適切な一致点が見つかると、その近傍から情報を効率的に伝播することができます。3) ランダム検索。これは、局所的な最適化を防ぐために後続の伝播で使用され、近傍に適切な一致が存在しない場合でも適切な一致を取得できるようにします。

反復的な伝播と検索が、オプティカルフローの問題を解決する鍵となります。伝播段階では、特徴マップ内の点がパッチとして取得され、隣接する 4 つのシード点が選択されます。したがって、各ポイントは、オプティカルフローマップを 4 つの近傍に向けてシフトすることによって、近傍から候補オプティカルフローを取得できます。次に、隣接する候補オプティカルフローとそのオプティカルフローから 5D 相関ボリュームが計算されます。すべてのオプティカルフローの変位 Δp を考慮すると、伝播の相関計算は次のように定義できます。

S(flow,Δp) は、Δp に応じた変位オプティカルフローです。Wはオプティカルフローの移動に合わせてF2を変更します。間違いなく、選択したシードポイントが多いほど、より多くの操作が必要になります。伝播を m 回繰り返して n 個のシード点を選択する場合、伝播にはオプティカルフローが n×m 回移動し、ソースフィーチャが n×m 回変化する必要があります。これにより、特に高解像度のオプティカルフローを予測する場合、メモリ操作と補間計算が増加します。オプションの数を減らすために、伝播の代わりにバックプロパゲーションが初めて使用されます。探索フェーズでは、ランダム探索をエンドツーエンドネットワークにより適したローカル探索方式に変更し、より高い正解率を実現します。

3. ディープリバースブロックマッチング

誤差逆伝播法。ワーピングプロセスはオプティカルフローの変位に依存するため、伝播では、オプティカルフローの変位とフィーチャワープが直列に結合されます。さらに、各反復では複数のオプティカルフローディスプレイスメントを実行する必要があるため、計算量が増加します。理論的には、フローを右下に移動することは、ターゲットを左上に移動することと同じ空間相対位置を持ちます。どちらの方法のコレログラムにも、絶対空間座標でのピクセルオフセットがあります。ターゲットが移動する方法をバックプロパゲーションと呼びます。これは次のように表現できます。

Δp が小さいため、実装ではバックプロパゲーションのプロセスは無視されます。つまり、以下を取得します:

バックプロパゲーションでは、ターゲットの特徴点がシード点に分散され、シード点のオプティカルフローによってワープされます。したがって、ターゲットフィーチャを事前にシフトしてスタックし、各反復で 1 回だけワープして、ワープ後のターゲットフィーチャを取得することができます。

この作業では、シードポイントは静的であり、反復が増加しても変化しません。したがって、ターゲットフィーチャをシードポイントに移動する必要があるのは 1 回だけであり、移動したターゲットフィーチャは各反復で再利用できます。このように、m 回の伝播反復に対して n 個のシードポイントがある場合、ターゲットフィーチャを n 回移動し、移動したターゲットフィーチャを m 回変更するだけで済みます。逆伝播フェーズは 2 つのサブフェーズに分割できます。

初期化フェーズ:入力ソースフィーチャ、ターゲットフィーチャ。オブジェクトフィーチャはシードポイントに従ってシフトされ、シフトされたオブジェクトフィーチャは深さ次元に沿って共有オブジェクトフィーチャとしてスタックされます。

実行フェーズ:ストリームを入力し、ストリームワープ共有ターゲットフィーチャに従ってソースフィーチャとワープターゲットフィーチャ間の相関を計算します。

ローカル検索。ランダムに初期化されるオプティカルフロー値の範囲が非常に狭いため、ブロック伝播のみで非常に正確なオプティカルフローを取得することは困難です。したがって、この作業では、各ブロックの伝播後にローカル近傍検索が実行されます。Patchmatch とは異なり、各伝播後にランダム検索が実行され、反復が増加するにつれて検索範囲が減少します。この論文では、ローカル検索と呼ばれる、各伝播後に固定の小さな半径の検索のみが実行されます。オプティカルフローの増分 Δf が与えられると、ローカル検索は次の式で表すことができます。

この作業では、実験結果に従って最終的な検索半径を 2 に設定します。この目的を達成するために、逆パッチマッチモジュールは主にバックプロパゲーションブロックとローカル検索ブロックで構成されます。各反復では、バックプロパゲーションの後にローカル検索が行われます。両方のブロックが GRU コストを使用して集約されることに注目してください。

4. ネットワーク構造

高解像度画像上で高精度のオプティカルフローを取得するために、新しいオプティカルフロー予測フレームワークDIPが設計されています。概要を下図に示します。これは主に、(1) 特徴抽出、(2) マルチスケール反復更新の 2 つの段階に分かれています。

特徴抽出。まず、入力画像に対して特徴エンコーダネットワークを使用して、1/4 解像度の特徴マップを抽出します。以前の作業とは異なり、コンテキストネットワークブランチを使用してコンテキストを抽出します。DIP は、ソースフィーチャマップをコンテキストマップとして直接アクティブ化します。次に、特徴マップは、平均プーリングモジュールを使用して 1/16 解像度にダウンスケールされます。1/4 解像度と 1/16 解像度では、同じバックボーンとパラメータを使用します。したがって、DIP は 2 段階でトレーニングでき、大きな画像を扱う場合は推論にさらに多くの段階を使用できます。

マルチスケールの反復更新。この方法は近傍伝播に基づいており、オプティカルフローを繰り返し更新する必要があります。ネットワークは、バックプロパゲーションモジュールとローカル検索モジュールの 2 つのモジュールで構成されます。トレーニングフェーズでは、ネットワークはサイズ 1/16 のランダムなオプティカルフローで開始され、次にサイズ 1/16 と 1/4 のオプティカルフローがピラミッド法を使用して繰り返し最適化されます。推論フェーズでは、トレーニングフェーズと同様の処理を行うことができます。より正確なオプティカルフローを取得するために、1/8 スケールでオプティカルフローを改善し、その結果を 1/4 スケールで最適化することもできます。

ネットワークは、初期化されたオプティカルフローを推論段階の入力として受け入れます。この場合、初期オプティカルフローの最大値に応じて、推定されるピラミッドの層数が調整されます。たとえば、ビデオ画像のオプティカルフローを処理する場合、前の画像のオプティカルフローの前方補間が現在の画像の入力として使用されます。以前のオプティカルフロー情報を使用すると、大きな変位には 2 つ以上のピラミッドを使用して精度を確保でき、小さな変位には 1 つのピラミッドを使用して推論時間を短縮できます。

5. 損失

損失関数は RAFT に似ています。DIP は反復ごとに 2 つのオプティカルフローを出力します。1/16 および 1/4 の解像度で N 回の反復を使用する場合、トレーニングプロセス全体にわたる出力数の予測は N = 反復 × 2 × 2 となります。監視には複数の出力があるため、RAFT と同様の戦略を使用して、重み付けされたシーケンスが計算され、予測シーケンスの損失にわたって合計されます。総損失は次のように表すことができます。

ここで、N は予測シーケンスの長さ、M(x) は行列 x の平均値を表し、wi は計算でき、トレーニングでは γ=0.8 が使用されます。

6. 実験

6.1. 実装の詳細

16 個の RTX 2080 Ti GPU、AdamW および OneCycle を使用。

6.2. 先進技術との比較

6.3. アブレーション実験

[論文概要] DIP: 高解像度オプティカルフロー向けのディープインバースパッチマッチ (CVPR 2022)

1. 論文の簡単な紹介