RAFT オプティカル フローの関連レイヤーを理解するには 2 分

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow は ECCV 2020 の最優秀論文です。記事を読んだとき、この 4D 関連レイヤーについて非常に混乱しました。インターネット上に良い情報がないことがわかりました。考えた結果、私の理解をお話しますので、皆様のお役に立てれば幸いです。
図 1. 相関ボリュームの確立
この図は、2 つの特徴マップの内積を取ることで 4D ボリュームを取得でき、その次元はH ∗ W ∗ H ∗ WH*W*H*Wであることを示しています。HWHw私が過去に学んだ知識では、内積は 2 つのベクトルの対応する乗算と加算です。ここで、なぜ 2 つの画像の内積が 4D テンソルを生成できるのかを以前の知識を使用して想像することはできません。
本文中の式の説明

1. 相関計算

この記事の相関ボリュームは完全相関ボリュームと呼ばれます。つまり、相関は Image1 の各ポイントと Image2 のすべてのポイントの間で計算されます。この 2 枚の写真はどちらも 3D 写真 (カラー写真) です。
ここに画像の説明を挿入
ここで、i、ji、jjは Image1, k , lk,lのランクと列です。k lは image2 の行と列、hhhはチャネル数です。
C 1111 = C_{1111}=C1 1 1 1= 2 つのイメージの最初のチャネル( 1 , 1 ) (1,1)( 1 1 )位置乗算 + 2 つのイメージの 2 番目のチャネル( 1 , 1 ) (1,1)( 1 1 )位置乗算 + 2 つのイメージの 3 番目のチャネル( 1 , 1 ) (1,1)( 1 1 )位置の乗算。
Image1( 1 , 1 ) (1,1)( 1 1 ) Image2 のすべての点計算に関連し、結果がH ∗ WH*WHWの行列。
次に、Image1 のすべての点 (つまり、 H ∗ WH*W)がHWポイント) は、Image2 H ∗ WH*Wのすべてのポイントの計算に関連します。->HW H ∗ W H*W HW行列->4D テンソルH ∗ W ∗ H ∗ WH*W*H*WHWHw
ここでは、2 つのカラー画像の完全な相関ボリュームの計算が 4D テンソルである理由を説明しました。

2. 関連するピラミッド

ここに画像の説明を挿入
ここに画像の説明を挿入
2 つの画像間の相関関係は 4D テンソルであることが知られており、最後の 2 次元のプーリングはH ∗ W ∗ H ∗ WH*W*H*Wであると記事では述べています。HWHW ∗ WH*Wの 2 番目の HHW、このピラミッドには 4 つの層があり、各層は次の 2 つの次元のプーリングのみを実行します。次に、最初の 3 つのレイヤーが図に示されており、この操作により画像の高解像度情報 (最初のH ∗ WH*W)HWは変化しない)、小さな変位の動き(2 番目のH ∗ WH*W)HWプーリング)。

最初の 2 つの層は、Image1 の最初の点と Image2 のすべての点を相関させることによって取得する必要があるため、プール後、Image1 または Image2 をプールしてから大域相関を計算することと同じになります。

参考文献:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

おすすめ

転載: blog.csdn.net/xiufan1/article/details/122464954