文学レビュー:アクティブ対応検索により、画像ベースのローカライズを改善

概要

入力:クエリ画像

出典:大規模なシーンの点群の再構築(百万人以上の3Dポイントがあります)

結果:ポーズ

关键:姿勢推定のために必要な画像特徴とシーンの点の間の一致を確立するための効率的かつ効果的な検索方法を。


2Dから3Dへと3Dツー2D検索に基づいて追加の動的マッチング探索フレームの複数。

二方向の利点の一種、欠点を回避しながら。

私たちは、最高の登録プログラムのパフォーマンスと実行時間と同等の最速のソリューションを持っています。

1.はじめに

高い位置決め精度を必要とする場合は、3D点群は、より多くのシーン表現です。

2次元画像特徴と3Dシーン点との対応関係を用いて、完全なカメラ姿勢を高精度に推定することができます。


この記事では、3DポイントクラウドSFMは、私たちがシーンを表現するために取得するオフライン。各3D点と関連した記述子(比較Iは、我々は、オンラインマルチビューステレオ再構成から得られた3次元点群としてシーンを表します)。

重要な課題は、何千もの3Dシーンポイントの2Dクエリ画像の特徴と何百万人の前にアソシエーションを確立することです。

RANSACは、関連マッチ品質を見つけるために、ポーズ、反復回数とRANSACを推定するために使用することができます。

[11]シンプル、ツリーベースのおおよその検索を提案し、良好なパフォーマンスを得るために登録します。しかし、この解決策は必要と数秒検索を行うこと。

我々は、ツリーベースのスキーム同様の性能および[11]を提案しているが、依然として一桁速い(大きさのほぼオーダー)です。そのコアは、3D対2Dマッチを開始するために、2Dから3Dへの対応の確立によるものです。

関連研究:...

2.イメージベースのローカライズの問題

画像-20200223164750547

曇り点は、SFMの外であるため、上記に示したように、各点は、少なくとも二つのSIFT記述子を有すること。

2Dから3Dへの3D-対に-2D検索画像特徴点群は、(画像が数桁含ま少ない点より数桁を持っているので 、モデルの点が存在するよりも少ない特徴を) その結果:

  • 機能(3D対2D)に対して単一のポイントがより効果的であると一致してみましょう。

  • この機能に関連するいくつかのポイントがある場合に非常に近く、より多くの候補が比検定を通じてより多くの困難に行きので???(より高品質の試合を持っている。しかし、低速の2Dから3Dへは、比検定はあいまい拒否します機能)。では、戻り高密度の記述子スペースを正しいマッチを拒絶する可能性が高いにも。

私たちは、戦略的優位の2つの戦略の組み合わせを持っています。

重点検索のみ特徴部分/ポイントに考えると、より効率的なマッチングを行います。これは、必要と優先順位付け方式最初の小節に最も有望な機能/ポイント。

  • 3Dツー2Dマッチングのために、Liが共可視性だけポイントベースの3Dの最適化を提供します。時点\(P \)マッチを構築し、そして他のすべての\(P \)優先度が改善に見られます。(どちらも意味をなします)。

  • 2Dから3Dへのマッチのために、サトラーは、[11]の外観に基づく解決策を提供する。また、特徴点と視覚単語のセット(視覚語)に割り当てます。プロセスは、最近隣距離を見つけるために、計算力の記述に基づいてオペレータの機能であるため。点の数が計算され、視覚的な単語の数は、特徴に割り当てる比例します。機能で、より多くのこと差別の外観を好むであろうように次第に例は、処理されるため必要となる、特徴のほんの数より多くのポイントを結合することができます。

我々は、に基づいて移動することになる[11]次に、共通のビューの外観に基づいており、2Dから3Dへと3D-2Dに固有の類似性を利用する戦略を優先します。

パフォーマンスのギャップを埋めます ...

地図のポイントは、オフライン段階で視覚的な言葉に割り当てるになります。

図クエリーを考えると、SIFT機能は、語彙にマッピングされています。各機能は、候補点のリストを持って、それは懸念の彼らのリストの順序を増やすことによって特徴付けられる:この取得します。

各機能について\(F \) 私たちはこの言葉にすべてのポイントを見つけ、その後、最も近い2人の隣人を見つけます。二点\(P_1、P_2 \)比テスト満たす場合SIFT :. $ || F || _2-P_1 / || F || _2-P_2 <0.7 \(、次いでマッチング\)(F、P_1、 || F-P_1 || _2)$が確立されています。

アクティブな対応検索

視覚的語彙誘導(誘導)量効果(量子効果)を使用して、一致の数を求めることができる制限します。この効果を解決するための簡単な方法は、複数の視覚的な言葉にマッピングされた機能を入れて、ソフトに関連しています。私たちは、使用アクティブ探索対応、より効率的な階層的なアプローチを- 。

画像-20200224122255941

2Dから3Dへの一致が(場合\(F \)\(P \) 発見された、3D点と言う高い確率が存在する\(pは\)クエリ画像の周囲に点在も見ることができるが。しかし、プログラム[11]は、この情報を無視して、2Dから3Dへのマッチングを行うことを継続します。

我々は、動的に\(P \)空間近点\(N_ {3D} \)と一致するように来ます。それぞれのそのようなポイント\(pは「\)それが有効になっている場合(ハンドルを回し、それが意味ですか?)、優先プログラムに挿入されます、我々は2Dが3D-TO-画像に特徴のマッチングを探します。類似した特徴のこのグループは、視覚的な語彙その後、識別することができます。

我々は探索空間を制限するために、2Dから3Dへの一致のためのより洗練された語彙を必要とするので、我々は考慮すべき十分な機能があることを確認するために、3Dツー2D探索フェーズのためのより粗い語彙を必要とします。

重要な観察は、語彙ツリーを使用して、任意の追加の計算なしに粗い語彙ことができることです。

数字の粗いレベルを使用しての追加の利点は、量子効果が発生したため試合を復元します。

注アクティブ探索のみに-3D-2Dの代わりに3Dツー2Dマッチで一致しました。

優先順位付け

効率的な検索がマッチ優先順位(優先順位付け)するための鍵です。私たちのフレームワークでは、任意の検索方向に一致することは、視覚的単語記憶装置に最も近い2人の隣人を見つけることです。

[11]において、フレームワークは、最近傍を見つけるために比較の数の優先順位に基づいています。(何とか何とか、など[11]は理解することができます見する必要があります。)私たちは、検索割り込みN照合を見つけた後。アクティブ探索と、外観に基づいていることを好む場合、残りの質問は(2D対3D)または情報covisibility(3D-TO-2D)です。

  • 場合covisibilityより重要なことには、2Dから3Dへの一致が見られる限り、直接的な優先順位付け戦略はアクティブ探索を実行することができます。場合(N_ {3D} \)\特徴夜の一致のためであり、それはアクション2Dから3Dへのマッチを復元することができます。これは、一致をもたらすのみ不安定計算姿勢で、その結果、画像の小さな領域にまでカールします。
  • 外観がより有利である場合には、2Dから3Dへの一致が最初に実行されること、及びアクティブ探索と3D-に-2Dマッチングを実行します。だから、唯一のアクティブな検索からほとんど利点かもしれません。

したがって、我々は両方の向きのバランスの取れた戦略を提案します。新しい一致が見つかった場合は、アクティブな検索を実行します。そして、両方向のための共通の優先順位付け方式にそれらをソートする探索コストを予測しました。両方の平等な待遇のためのこの戦略情報は、サイドは常に簡単に傾向を評価しました。

画像-20200224134404602


計算複雑

与えられた点群持つ\(P \)ポイント、およびサイズの語彙\(W \) この花、単語があるポイントの平均数\(P / W \) 考えると\(C + 1 \)の言葉は、その後、検索がコスト機能です\(C \タイムズP / Wがある\)この場合は、\(F.が\)算出される機能の姿です\( \ mathcal {O} \左(C \ CDOT F. \ WはFRAC {P} {} \右)\)

比較では、アクティブ探索アップがトリガされ、\(N \) 次いで、kdツリーと回(\ N_ {3D}の)\最も最近点があってもよい(\ mathcal {O} \ \左( N_ {3D} \ log_2(P )\右)\) 厚い語彙(サイズを使用して時間\(Wは\) )、この場合、A点相当する\(\ FRAC {F} { W「} \)機能。ので)N(\ \\(N_ {3D} \)定数であり、追加の計算アクティブ探索である(\ mathcal {O} \ \左(\ log_2(P)\ FRAC {F} Wは、{「} \右)\)です

既存の方法との比較

細かい単語リストと試合を失ったが。Sec.6でこれらのキーの一致を反映しているため、[11]と比較して、私たちのプログラムは、回復することができます。

[10]との言葉よりも、活動的な検索が2Dから3Dへに基づいており、そして3Dツー2D試合ベースよりも信頼性が高くなります。私たちのプログラムは、より良いパフォーマンスを取得してみましょう、だけでなく、より効率的。

(大規模なデータセットのための)右マッチの多くを除去するサブ空間密度と関連する3D点の数、及び比検定に記載されているようにさらに優れたツリーベースの検索より活性な検索、。

4.効率的な実装

2D-TO-3Dマッチングのために100Kワードを持つ微細な視覚語彙。によって[15]、この語彙にSIFTベースを生成するためのおおよそのk平均に基づいて、我々は(10倍を分岐して)vocabuaryツリーを生成。

アクティブ探索は、2Dから3Dへのパイプラインの[11]に含まれています。

検索\(N = 100 \) 6時DLTアルゴリズム[16]を使用する[22]マッチング、我々 RANSACバリアント後。

画像-20200224064944579

候補点に複数のフレームが、観察された再構成され、各点ため\(P「\)場合、3D-TO-2Dマッチング、記述子の複数が存在することになる\(D(P」)\ ) 異なる微細な語彙単語に格納されている。一連の定義\(AWを\)レベルである(L \)\ビジュアルワードを活性化する。我々は発見\(AW \)下及び被覆(D(P '\ )\)二つの特徴の最も近い距離を有する(F_1、F_2 \)を\

そして、ALG。1 2サイクルアクノリッジのために\(P「\)コストを検索します。我々は必要(F_1、F_2 \)\ 2は、区別の程度によって特徴づけられる。3D-TO-2Dを検討するためには一致しません確実性、2Dから3Dへのマッチを置き換えることができない3Dツー2D一致が見出されたマッチングは、3D-TO-2Dは備え、2Dから3Dへの試合中に取り込まれることはありません。

レベル\(L \)機能が分配される画像の直接制御の数を選択し、候補点\(P「\)検索コストの。クエリ図1K-20Kは、一般に、その依存(特徴点をので精度)、我々は、次に使用するまでの時間は、そうでなければ、レベル3(1,000ワード)を使用して、5Kレベル2(100語)を備えている。この場合、5〜50の平均単語を備えています。\(P「\)検索コストは一定とみなすことができます。

追加の可視性情報を組み込む5.

ソフトマッチングよりも効率が、アクティブな検索も追加の計算が必要です。このフレームワークでは、実行時の増加を補償するためにパイプラインの位置をスピードアップする方法についてお話します。

昇降近似する推定の再構成の際に使用される観察像点がそこから視点のセット表示されます。3D対2Dマッチングポーズ推定およびフィルタリングすることによって見ることが不可能RANSACベースのビットを(加速することが可能です場所)。近似自然ので、このフィルタは、右のスポットを除外します。私たちは失われたパフォーマンスを回復するための簡単な戦略を提案します。

濾過段階は、二部グラフ(グラフ二部)として表示されることがあり、\(G \) およびカメラによって定義された3D点。

画像-20200224085823027

3Dポイントのフィルタリング

過去(3D空間での近接)から3Dスペースは、2つの共visibiliyことを意味するものではありません。同じ位置に観察される4.A彼らは、図と同じでないかもしれません。私たちのポイントフィルタを $ N_のすべてを削除するには3D} { \(最近傍箇所を直接観察することができない(直接見えない)点\) Pの$。ためにはるかに2つだけのエッジ点は、3D対2Dマッチングとして使用されます。

RANSACフィルタPRES-A レビューが必要)

サブグラフ(サブグラフ)を定義する図4.Cマッチングを確立\(g_c \)\(G \)を私たち。RANSACは、フィルタを事前\(g_c \)が見つかりました。最後の点と3Dを含みますこのコンポーネントに接続できるだけ間違った2D-にので、この整合フィルタは、3D対2Dにいくらかの効果を有すること組成物。外側の点が除去されるので、これは、RANSACの姿勢に基づいた推定アルゴリズムを加速する。注-3D試合はさらにマッチを見つけることができることはほとんどありません。

カメラは使用を設定します(レビューが必要です)

フィルタリングステップは、図bにあまりにもアグレッシブアップ。グリーンポイントかもしれません。カメラを組み合わせることで、私たちはより良い、ビューのより連続的な点は、各写真のために推定された見つけることを願っています\(I_jを\) 我々は同様の定義しますアトラス\(SIM(I_j)\)です\(K \)最寄りのカメラはカットしませ斜視ギャップと行う\(I_j \)の間の差まで(60 \)\ °。このセットは、問題(集合被覆問題)は含まれてい[10]解決する貪欲アルゴリズム。

6.実験的評価

最大のエッジすべてのクエリグラフは1600個のピクセルです。私たちは信じている12よりも最高のインライアの数以上のマップは、アップ登録された場合に。

画像-20200224094252980

アクティブ探索の評価

図5は、平均登録時間、登録図形の平均の数を引きました。

視界情報を検討する最初の戦略直接的な方法は、登録が最高のパフォーマンスを持っているが、試合を見つけることは容易である悪いポーズ精度が得られ、映像にあった。2.私たちのプログラムではないでしょう表に示すように、登録およびパフォーマンス位置決め精度をあきらめます。

画像-20200224095057262

フィルタリングを使用して高速化登録

登録地点のパフォーマンスで、この論文の焦点は、関心。ポイントフィルタとRANSACプレフィルタのプログラムの我々はまだ早いほど良いポジショニングは、この目的のために設計されていますが。

画像-20200224112222593

予想通り、フィルタ少量の平均登録パフォーマンスが低下します。私たちは、異なるデータセットのパフォーマンスのために異なるフィルタを見つけました。

それは記述子の設定された最小データを持っているので、最大衝撃RANSACは、ウィーンフィルタを事前3Dは2D-TO-に障害を見つける可能性が高い一致。不一致がモデル全体に​​分散されているので、RANSACプリfitlerあなたはそれらの大部分を除去することができます。

これとは対照的に、フィルタは、これは、RANSACにおけるプレフィルタの効率に影響を与えます。多くの同様の視点がありますが、それは別のランドマークを再構築しました。ローマの最小限の影響しか与えない。そして、プリフィルタのためのより密な記述子スペースがあります不整合を除去するのが困難。

カメラのセットの使用

画像-20200224113019208

最先端との比較

我々のプログラムの表3の比較は、(\(= 200 N_ {3D}、K = 10 \)であり、そして他のプログラム)。

\(P2F \)のLiによって表示3Dツー2Dマッチング。

\(P2F + F2Pは\)場合は、2Dから3Dへのマッチングを行います\(P2Fが\)に失敗しました。

画像-20200224113526469

7.まとめ&今後の課題

2Dから3Dへと高速化ツリーベースの方式よりも大きさの3Dツー2D方式で最高。注文の組み合わせ。

おすすめ

転載: www.cnblogs.com/tweed/p/12358398.html