ICCV 2023 | プラグアンドプレイ! 上海交通大学がクロスフレームオプティカルフロー推定フレームワーク「AccFlow」を提案

下のカードをクリックして「CVer」公開アカウントをフォローしてください

AI/CVの重要な情報をいち早くお届け

クリックして入力 -> [ターゲット検出と変換] グループ

ICCV23|上海交通大学は、フレーム間オプティカルフロー推定フレームワークを提案しました。フレーム間オプティカルフローを蓄積して長距離フレーム間オプティカルフローを取得するAccFlowは、あらゆるフレーム間オプティカルフロー推定アルゴリズムに適応し、プラグインされます。 -そして、遊びます。

6cefc2c6573c7662f027ab46035769e4.png

CVer WeChat パブリック アカウントのバックグラウンドで返信: AccFlow、この論文の PDF とコードをダウンロードできます

論文: https://arxiv.org/abs/2308.13133

コード: https://github.com/mulns/AccFlow

近年、オプティカルフロー推定アルゴリズムはディープラーニングのサポートにより急速な性能向上を実現しています。ただし、既存のオプティカル フロー アルゴリズムは主にビデオの隣接するフレーム間のオプティカル フローを推定し、フレーム間のオプティカル フローの推定はほとんど検討されていません。本稿では、隣接するフレームのオプティカルフローを累積することで長距離のオプティカルフローを求める、フレームをまたがるオプティカルフローを推定するアルゴリズム「AccFlow」を提案する。AccFlow は、プラグ アンド プレイの任意のフレーム間オプティカル フロー アルゴリズムで使用できます。

逆蓄積

T フレームのビデオがあり、T-1 個の事前に取得されたフレーム間オプティカル フローがあるとします          a8cddf8d6f56becce0927d0b0946a69c.pngこのフレーム間オプティカルフローを継続的に蓄積することで、長距離のフレーム間オプティカルフローを得ることができます。次に、2 つのオプティカル フローの累積プロセスを考えます。これは 2 つのステップに分割できます: まず、2 つのオプティカル フロー ベクトルの開始点を位置合わせし、次に 2 つのベクトルの値を加算します。これら 2 つのステップのうち、ワーピング操作によって生じるオクルージョンの問題があるため、より難しいのは位置合わせプロセスです。我々は逆蓄積法を提案しており、順蓄積に比べてオクルージョン問題を大幅に軽減できる。

237a4978a6c2393af3f241c2aaeb2cf5.png

上の図にあるように、蓄積は赤い矢印と青い矢印を足したものとして考えられます。黄色の点線の矢印は位置合わせ距離を表します。位置合わせする必要がある 2 つのフレーム間のタイム スパンが長い場合、通常、動きも大きくなり、動きが大きくなるとオクルージョンの問題が大きくなります。したがって、前方累積オクルージョンの問題は時間の経過とともに徐々に増加します。対照的に、逆累積プロセスでは、アライメント距離が時間に依存せず、常に最小値のままであることがわかります。5000 データのオクルージョン率をカウントしました。424ffa51d0ab075abcc794079f76ee53.png異なるフレーム間間隔でのオクルージョン率の統計 ( ) は次のとおりです。

2f84181c1ae60f51946b00183a6bdb9b.png

5eff424e36e09942eadce7ed85872e1c.png

上の図では、実際的な例を示しています。反復回数が増加するにつれて、順方向に蓄積されるオクルージョン領域の割合が増加し続けることがわかります。対照的に、後方累積オクルージョン比率は反復回数が増加せず、常に小さいままであるため、解決が容易になります。これは、私たちが提案した逆累積の重要性を裏付けています。

AcFlowネットワーク

ac118a8f4107e82fd9bd21db5fd61671.png

AccFlow のネットワーク構造は、AccPlus と Adaptive Blending の 2 つの部分に分かれています。その中でもAccPlusはオプティカルフローの逆蓄積を完成させるためのコア部分です。アダプティブ ブレンディングは、ネットワークがエラー蓄積の問題をより適切に処理するのに役立つ補足情報を提供します。AccPlus ネットワークでは、変形可能な畳み込みを使用して、2 つのオプティカル フロー フィールドの特徴位置合わせと特徴融合を実行し、オクルージョンされた領域を適応的に埋めます。さらに、アダプティブ ブレンディングを使用して補足情報を融合します。補足情報は、長距離オプティカル フローのエンドツーエンド推定(隣接フレーム オプティカル フロー推定アルゴリズム OFNet を使用)から得られます。AccPlus ネットワーク全体の構造はシンプルかつ軽量です。ただし、AccPlus での累積処理では誤差が累積しやすいため、アダプティブ ブレンディング モジュールが提供する補足情報として、エンドツーエンドの推定動き特徴を提供して累積誤差を修正し、より良い結果を得ることができます。OFNet は、AccFlow フレームワークで入力オプティカル フローを提供する役割を果たしていることに言及する価値があります。私たちの実験では、OFNet は、RAFT[1]、GMA[2]、GMFlow[3]、など待ってください。

データセット

AccFlow ネットワークを効果的にトレーニングするために、11406 個のサンプルを含む新しいデータセット CVO を提案します。このうち、各サンプルには 7 フレームのビデオ シーケンスとそれに対応するオプティカル フロー ラベルが含まれています。他のオプティカル フロー データセットとは異なり、隣接するフレーム間のオプティカル フローを提供するだけでなく、異なるフレーム間隔でフレーム間のオプティカル フローも提供します。したがって、CVO は関連タスクにより豊富なラベル データを提供し、AccFlow が長距離オプティカル フローの生成を学習するのに効果的に役立ちます。

実験結果  

2a52790b5dc48e703e2c0ae5178c4b67.png

上の図に示すように、累積距離の増加に伴うさまざまなアルゴリズムのパフォーマンスの変化を調査しました。AccFlow の EPE は依然として最低であり、変化が最も小さいことがわかります。対照的に、RAFT [1] および GMA [2] アルゴリズムとそのバリアントのパフォーマンスは、累積距離が増加するにつれて徐々に低下します。このうち、RAFT アルゴリズムと GMA アルゴリズムは両方とも、AccFlow と比較して公平性を確保するために CVO データセットに基づいて微調整されています。「-w」はウォームスタートアルゴリズムを表しており、ウォームスタートを使用すると性能はある程度向上しますが、長距離のオプティカルフロー推定にはまだ有効ではないことがわかります。

fb577b431aa9c0473e896f6c137dea0a.png

上では、主観的な視覚効果の比較を示しています。「-Lim」はオプティカル フロー累積アルゴリズム [4] です。上図から分かるように、最初と最後のフレーム(左2)のオプティカルフローを直接推定することは難しく、蓄積方法(左3~5)が改良されています。AccFlow は、より複雑なオクルージョン状況で他のアルゴリズムを上回ります。さらに視覚的な比較については、補足資料を参照してください。

CVer WeChat パブリック アカウントのバックグラウンドで返信: AccFlow、この論文の PDF とコードをダウンロードできます

参照   

[1] ザカリー・ティードとジア・デン。Raft: オプティカル フローのための反復的な全ペア フィールド変換。プロセスで。ヨーロッパ会議 計算します。ヴィス。(ECCV)、402 ~ 419 ページ、2020 年。

[2] Shihao Jiang、Dylan Campbell、Yao Lu、Hongdong Li、および Richard Hartley。グローバル モーション集約を使用して隠れたモーションを推定する方法を学習します。プロセスで。IEEE/CVF 国際 会議 計算します。ヴィス。(ICCV)、9772 ~ 9781 ページ、2021 年。

[3] Xu、Haofei および Zhang、Jing および Cai、Jianfei および Rezatofighi、Hamid および Tao、Dacheng.GMFlow: Learning Optical Flow via Global Matching.In Proc. IEEE/CVF CVPR、8121-8130 ページ、2022。

[4] SukHwan Lim、ジョン・G・アポストロポロス、アッバス・エル・ガマル。時間的にオーバーサンプリングされたビデオを使用したオプティカル フロー推定。IEEEトランス。画像処理、14:1074–1087、2005

クリックして入力 -> [ターゲット検出と変換] コミュニケーショングループ

ICCV/CVPR 2023 の論文とコードのダウンロード

 
  

バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/132913827