Paper Express: 視覚的な位置決めのための NLP アイデアに基づくライン特徴マッチング アルゴリズム

标题:視覚的な文としての行:視覚的ローカリゼーションのためのコンテキスト認識型行記述子

著者:ユン・ソンホ1、キム・アヨン2∗

まとめ

    ロボット工学およびコンピューター ビジョンの分野では、問題を解決するために画像一致特徴点を使用してマルチビュー ジオメトリを計算することに加えて、ライン フィーチャは冗長な制約を提供できるため、ライン フィーチャの計算も使用できます。CNN に基づく線形特徴記述子は、視点の変更や動的環境の適用において大きな可能性を持っていますが、CNN は線の長さが変化すると当然の欠点があると考えられます。CNN は変化する線の長さを固定長で記述する必要があるためです。寸法記述子。この論文では、ライントランス法が線路長変動の問題を効果的に解決できることを提案します。自然言語処理 (NLP) にヒントを得て、線分を文、特徴点を単語とみなします。直線上の記述可能な点を動的に観察することにより、この記述子は可変長の直線に対して適切に機能します。また、線の幾何学的特性を隣接する線と共有できる線署名ネットワークも提案します。また、本論文で提案した線特徴記述とマッチング方法を使用して、点線ベースの位置特定(PL-Loc)を実現します。提案したライン特徴を組み合わせることで、特徴点に基づいた視覚的位置特定パフォーマンスを大幅に向上できることを実証します。ホモグラフィー推定と視覚的位置特定の観点からアルゴリズムの有効性を実証します。

    プロジェクトのオープンソース アドレス: https://github.com/yosungho/LineTR

ライントランス

1. Line Tokenizer: 著者は NLP から関連するアイデアを借用しています。NLP で文を複数のフレーズに分割するプロセスは、トークン化と呼ばれます。著者は、NLP では直線を文とみなして、特徴点を用いて直線を線分に分割し、抽出された特徴点は pi = (x, y, c)i (x, y はそれぞれを表す) で表されます。位置、c は信頼度を表します。隣接する 2 点間の間隔の長さを v とすると、直線上の特徴点の数は n = ⌊l/v⌋+1 となります。ここで l は直線の長さを表します。具体的なプロセスを次の図に示します。

    個人的な理解では、NLP に対応するニューラル ネットワークを使用する場合、直線の情報をベクトル化する必要があり、上図はベクトル化のプロセスであり、直線の特徴が NLP ネットワークの対応する特徴に抽象化されます。

2. トランスフォーマー: 著者はトランスフォーマーを使用して、線形特徴記述サブモデルを構築します。Transformer のエンコーダーは、MSA レイヤー (マルチヘッド セルフ アテンション レイヤー) と MLP レイヤーの 2 つの部分で構成されます。直線の特徴記述子は、式 1 に示すように、Transformer を L 回スタックすることで取得できます。

    式中、z0はTransformersの入力、Elineは記述子の初期状態、Enはn番目の特徴点の記述ベクトル、Eposは各特徴点の位置情報を表し、異なる特徴点の問題を解決するために直線の長さ、mask0 を追加して、比較的相関の低い特徴点を削除します。d は、取得された線形特徴記述子です。

回線署名ネットワーク

    著者は、単一の直線特徴量の記述を確立することに加えて、直線の位置と角度に応じて直線をクラスターにクラスタリングし、隣接する直線の情報 (位置、角度) を共有する直線署名ネットワークを設計しました。情報伝達ネットワークを通じて。転送式は次のとおりです。

サブラインからキーラインへ

    Transformers にはトークンの最大数に制限があるため、直線フィーチャの場合、ライン上のフィーチャ ポイントの最大数が制限されます。つまり、ラインの最大長が制限されます。この問題を解決するために、本論文ではサブラインとキーラインの概念を提案します。元の直線がキーラインになります。直線の長さが最大長の制限を超えると、元の直線は複数のサブライン、つまりサブラインに分割されます。同時に隣接行列 (隣接行列) が作成されます。サブライン記述サブ距離行列をキーライン距離行列に変換するように設計されています。次のように:

損失関数

    コスト関数の設計にはセミハード ネガティブ サンプリング戦略 (セミハード ネガティブ サンプリング戦略) が採用されており、コスト関数は次のように設計されます。

    このうち、ai はアンカー記述子(個人の理解はマッチング距離を計算する際の記述子)、Pi はポジティブ記述子(個人の理解はマッチング上で比較的類似した記述子)、ni はネガティブ記述子(個人の理解はマッチング距離を計算する際の記述子)です。上記の記述子) は、損失関数からわかるように、一致する記述子間の距離を最小化し、一致しない記述子間の距離を最大化することを目的としています。

実験結果

    著者は、ホモグラフィー推定と視覚的位置推定の効果を通じてアルゴリズムの能力を評価します。比較されるアルゴリズムには、SuperPoint、LBD、LLD、WLD、SOLD が含まれます。

    上記の結果を通じて、この質問で提案されたアルゴリズムは、指標の点で他の比較アルゴリズムよりも一般的に優れていることが証明できます。

要約する

    この論文は、NLP の考え方に基づいたライン特徴記述手法を提案し、定量的な実験を通じて、ホモグラフィー推定と視覚的位置決めの点で他のライン マッチング アルゴリズムよりも優れていることを検証し、この手法は github でオープンソース化されています。ラインマッチングに興味がある学生はぜひチェックしてみてください。

概要

    画像マッチングのための特徴点に加えて、ライン フィーチャは、ロボット工学やコンピューター ビジョン (CV) における視覚的な幾何学的問題を解決するための追加の制約を提供します。最近の畳み込みニューラル ネットワーク (CNN) ベースのライン記述子は視点変更や動的な環境に有望ですが、CNN アーキテクチャには可変ライン長を固定次元記述子に抽象化するという本質的な欠点があると私たちは主張しています。この論文では、可変回線を扱うライントランスを効果的に紹介します。ニューラル ネットワークで文を理解して抽象化できる自然言語処理 (NLP) タスクにインスピレーションを得て、線分を点 (単語) を含む文と見なします。ライン上の適切に記述可能な点を動的に処理することにより、私たちの記述子は可変ライン長でも優れたパフォーマンスを発揮します。また、線の幾何学的属性を近隣と共有する線署名ネットワークも提案します。グループ記述子として機能するネットワークは、ラインの相対的な幾何学形状を理解することでライン記述子を強化します。最後に、提案されたライン記述子と点と線の位置特定 (PL-Loc) でのマッチングを示します。特徴点による視覚的位置特定は、ライン特徴を使用して改善できることを示します。ホモグラフィー推定と視覚的位置特定のための提案された方法を検証します。特徴点による視覚的位置特定は、ライン特徴を使用して改善できることを示します。ホモグラフィー推定と視覚的位置特定のための提案された方法を検証します。特徴点による視覚的位置特定は、ライン特徴を使用して改善できることを示します。ホモグラフィー推定と視覚的位置特定のための提案された方法を検証します。

おすすめ

転載: blog.csdn.net/qq_41050642/article/details/128256117