SuperGlue 学習記録の最適な送信

最適伝送の理論を学ぶ過程で、最適伝送によって特徴点のマッチング処理を完了する論文「SuperGlue」を発見しました。

スーパーグルーの構造

ここに画像の説明を挿入
まずその構造を見てみましょう。

まず、2 つの画像が特徴抽出ネットワークに送信され、畳み込みネットワークを通じて特徴が抽出されます。2 つの画像の特徴情報である 4 つの主要な値があります。diA と diB (1,256,997)、256 は次元特徴です。 、位置情報 piA と piB(1,997,2) 997 は画像内の特徴点の数を指し、2 は xy 座標を指します。
次に、特徴点の位置は、次元変換のために KeyPoint Encoder に送信され、(1,256,997) と (1,256,1074) になり、AGNN (Actual Graph Neural Network) に送信されます。アテンションとクロスオーバー アテンションの計算では、最終的に(1, 256, 1074)と(1, 256, 997)という 2 つの画像の特徴を取得し、その 2 つの特徴情報を使用してスコアを計算します。 :

mdesc0, mdesc1 = self.final_proj(desc0), self.final_proj(desc1)
# Compute matching descriptor distance.
scores = torch.einsum('bdn,bdm->bnm', mdesc0, mdesc1)

つまり、取得された値は Sij であり、SuperPoint から借用したダストビンの導入により、一致しない特徴点を処理し、コスト行列を形成し、構築されたコスト行列を計算のために Sinkhorn アルゴリズムに送信します。そして最後に送電計画と損失値を取得します。

以下の図は、データ変換とモデル構造図を示しています。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/pengxiang1998/article/details/131794469