古典文学の読書 - NICER-SLAM (RGB ニューラル暗黙的密集 SLAM)

0. はじめに

ニューラル暗黙的表現は、近年の SLAM、特に高密度ビジュアル SLAM で一般的な表現方法となっています。ただし、この方向の以前の研究は、RGB-D センサーに依存するか、カメラ追跡に別の単眼 SLAM アプローチを必要とし、高精度、高密度の 3D シーンの再構成を生成できませんでした。この論文では、カメラポーズと層状ニューラル暗黙的マップ表現を同時に最適化し、高品質の新規ビュー合成も可能にする高密度 RGB SLAM システムである NICER-SLAM を提案します。

マップの最適化プロセスを促進するために、簡単にアクセスできる単眼幾何学キューやオプティカル フローなどの追加の監視信号を統合し、単純な変形損失を導入して幾何学的一貫性をさらに強化します。さらに、複雑な屋内シーンのパフォーマンスをさらに向上させるために、符号付き距離関数 (SDF) からボリューム レンダリング方程式の密度への局所適応変換も提案します。合成データセットと実際のデータセット上で、高密度マッピング、トラッキング、および新しいビュー合成において強力なパフォーマンスを実証し、最近の RGB-D SLAM システムとさえ競合します。コードのこの部分はまだオープンソースではないため、今後のリリースに期待してください。

ここに画像の説明を挿入

1. 記事寄稿

この論文の貢献は次のとおりです。

1. 我々は、最初の高密度 RGB SLAM の 1 つである NICER-SLAM を提案します。これにより、トラッキングとマッピングのエンドツーエンドの最適化が可能になり、新しいビューの高品質な合成も可能になります。

2. SDF の階層的なニューラル暗黙的エンコーディング、さまざまな幾何学的な正則化と動きの正則化、および局所的に適応可能な SDF の体積密度変換を導入します。

3. 合成データセットと実際のデータセットの両方で強力なマッピング、トラッキング、および新しいビュー合成パフォーマンスを実証し、最近の RGBD SLAM 手法とさえ競合します。

2. システム概要

NICER-SLAM パイプラインの概要を図 2 に示します。RGB ビデオを入力として指定すると、エンドツーエンドの最適化を通じて、正確な 3D シーンのジオメトリと色、およびカメラの追跡を同時に推定します。図2にNICER-SLAMのシステム概要を示します。私たちのメソッドは、入力として RGB ストリームのみを受け取り、カメラのポーズと、ジオメトリと色の学習された階層的シーン表現を出力します。エンドツーエンドのジョイント マッピングとトラッキングを実現するために、予測された色、深度、法線をレンダリングし、入力 RGB および単眼キューに基づいて最適化しますさらに、RGB 変形損失とオプティカル フロー損失を通じて、幾何学的一貫性をさらに強化します。階層的なニューラル暗黙的表現を使用して、シーンのジオメトリと外観を表現します (セクション 3)。NeRF のような微分可能なボリューム レンダリングを使用すると、ピクセルごとの色、深度、法線の値を提示できます (セクション 4)。これは、カメラのポーズ、シーンのジオメトリ、および色のエンドツーエンドの共同最適化に使用されます (セクション 4)。第5節 祭り)。最後に、システムにおけるいくつかの設計上の選択肢について説明します (セクション 6)。

ここに画像の説明を挿入

3. 階層型ニューラル暗黙的表現 (Nice slam に類似)

まず、SDF および色予測用のマルチレベル グリッド機能と MLP デコーダを組み合わせた、最適化可能な階層シーン表現アプローチを紹介します。
粗いレベルのジオメトリ表現: 粗いレベルのジオメトリ表現の目的は、部分的な観測データしかない場合でも、粗いシーン ジオメトリ (幾何学的詳細をキャプチャするオブジェクト) とシーン レイアウト (例: 壁、床) を効率的にモデル化することです。このために、32×32×32 32×32×32の解像度を使用します。32×32×32の高密度ボクセル グリッドは正規化されたシーンを表し、各ボクセルに 32 個の特徴を保持します。空間3 内の任意の点 x ∈ R 3バツR3、小さい MLPfcoarsef ^{coarse}f64 次元の隠れ層と組み合わせて、その基本 SDF 値を取得ますわかりましRと幾何学的特徴zcoarse ∈ R 32 z^{coarse}∈\mathbb{R}^{32}z一緒_R次の式に示すように、 32
ここに画像の説明を挿入
です。ここでγ γγ は、座標を高次元にマッピングする固定位置エンコーディング [29、54] に対応します。[71, 69, 68] の方法に従って、位置エンコーディングのレベルを 6 に設定します。Φ粗い ( x ) Φ^{粗い}(x)ファイco a rse (x)は特徴グリッドΦ coarse Φ^{coarse}ファイxx同じですxでの三重線形補間

細かいレベルの幾何学的表現: 粗い幾何学的形状は粗いレベルの形状表現で取得できますが、シーン内の高周波の幾何学的詳細をキャプチャすることが重要ですこれを達成するために、多重解像度フィーチャ グリッドと MLP デコーダ [5、31、76、53] を使用して、高周波の幾何学的詳細を残留 SDF 値としてモデル化します具体的には、多重解像度の密な特徴グリッドΦ {finel } 1 L {Φ^\{fine}_l \}^L_1 を使用します。ファイ{ fine}1L、解像度はR l R_lですRこれらの解像度は、幾何学的空間 [31] でサンプリングされ、さまざまな周波数の特徴が組み込まれます。
ここに画像の説明を挿入
ここで、R min R_{min}RおよびR max R_{max}Rマックス_はそれぞれ最低解像度と最高解像度に対応しますここではR min = 32 R_{min}=32 と設定します。R=32R max = 128 R_{max}=128Rマックス_=128、合計L = 8 L=8L=8レベル。各レベルの特徴次元は 4 です。さて、 xx
の点についてです。残差 SDF 値をモデル化するx では、各レベルで三重線形補間された特徴を抽出して連結し、サイズ 64ffinef^{fine}ff in e :
ここに画像の説明を挿入
ここで、zfine ∈ R 32 z^{fine} ∈ \mathbb{R}^{32}zf in eR32はxxです細かいレベルでのxの幾何学的特徴。基本 SDF 値は粗い層ごとに傷^{coarse}s層および細層残留 SDF∆ s ∆sΔsxx _x s ^ \hat{s}の最終予測 SDF 値s^は単に両方の合計です:
ここに画像の説明を挿入
色の表現3D ジオメトリ情報に加えてまた、別のアプリケーションとして、その場で新しい視点から画像をレンダリングすることもできます。[31] に触発されて、別の多重解像度特徴グリッド{Φ lcolor } 1 L \{Φ^{color}_l\}^L_1 を{ Fまたは_ _}1Lサイズ 64 の 2 層 MLP によってパラメータ化されたデコーダfcolorf^{color}fco lまたは色をエンコードします。フィーチャー メッシュのレイヤー数はL=16 L=16L=図16に示すように、各層の特徴次元は2である。最小解像度と最大解像度はそれぞれR min = 16 R_{min} = 16 にR=16およびR max = 2048 R_{max} = 2048Rマックス_=2048年各点の色の値を次のように予測します。
ここに画像の説明を挿入
ここで、n ^ \hat{n}n^ は、式 (4) のs ^ \hat{s}s^計算点xxx 、 γ ( v )における法線γ(v)γ ( v )は視線方向であり、[68, 71] に従ってレベル 4 の位置エンコードが行われます。

4. ボリュームレンダリング (より重要な議論)

3D 再構築の陰的手法 [38、68、71、59] および高密度視覚 SLAM [51、76] に基づく最近の研究に従って、セクション 3.1 で最適化されたシーン表現の微分可能なボリューム レンダリングを使用します。具体的には、ピクセルをレンダリングするには、カメラの中心からooo正規化された視線方向に沿ってvvv、光線になりますrrrがピクセルに投影されます。次に、この光線に沿って N 点をサンプリングします。xi= o + tiv x_i = o + t_ivバツ私は=ああ+t私はv、その予測される SDF と色の値はs ^ i \hat{s}_is^私はc ^ i \hat{c}_ic^私はボリューム レンダリングの場合は、[68] に従って SDF s ^ i \hat{s}_i を取得します。s^私は密度値σ i σ_iに変換p私は:
ここに画像の説明を挿入
ここで、β ∈ R β ∈ RbRは、SDF から嵩密度への変換を制御するパラメーターです。[29] のように、現在のレイrrr C ^ \hat{C}の色C^は次のように計算されます。
ここに画像の説明を挿入
ここで、T i T_iT私はわあ、あ_いある私は同様に光線rrに沿ってrのサンプリング点iiiの透過率とアルファ値δ i \delta_id私はは隣接するサンプリング点間の距離です。同様に、現在の光線rrも計算できます。rと交差する表面のD ^ \hat{D}D^および通常のN ^ \hat{N}N^、次のように:
ここに画像の説明を挿入
この論文では、局所的な適応変換の方法を紹介します。**式(6)のββパラメータは、オブジェクトの表面近くの滑らかさ ** をモデル化します。ネットワークがオブジェクトの表面についてより確実になるにつれて、 β ββの値は徐々に減少します。したがって、この最適化スキームにより、より高速かつ鮮明な再構成が可能になりますVolSDF [68] では、β ββは単一のグローバル パラメーターとしてモデル化されます。このモデリング アプローチは基本的に、異なるシーン領域で同じ程度の最適化が行われることを前提としています。これは小さなシーンには十分です。ただし、複雑な屋内シーンでは、グローバルに最適化されたβ ββ値は最適値ではありません (アブレーション研究についてはセクション 4.2 を参照)。そこで、 β βを組み込んだ局所適応手法を提案する。β値は局所化されているため、式 (6) の SDF 密度変換も局所的に適応します。具体的には、シーン全体でボクセル カウンターを維持し、マッピング プロセス中に各ボクセル内のポイント サンプルの数をカウントします。経験的にボクセル サイズ 643 を選択します (アブレーション研究についてはセクション 4.2 を参照)。次に、ローカル点サンプルからT p T_pをカウントする方法をヒューリスティックに設計します。Tpbβ値の変換:
ここに画像の説明を挿入
グローバル入力設定 β の下でβ変換は、ボクセル数に応じてβの減少をプロットし、曲線をフィッティングすることによって得られました。私たちは経験的に、指数曲線が最適であることを発見しました。

5. エンドツーエンドのジョイントマッピングと追跡(この部分も比較的必要です)

RGB 時間入力のみからは、特にテクスチャのないまばらに覆われた領域が多くある大規模で複雑なシーンの場合、高度なあいまいさのため、3D シーンのジオメトリと色、およびカメラのポーズを同時に最適化することは困難です。したがって、ニューラルシーン表現の下でエンドツーエンドのジョイントマッピングと追跡を実現するために、幾何学的制約と事前制約、シングルビュー制約とマルチビュー制約、グローバル制約とローカル制約を含む次の損失関数を提案します。

RGB レンダリング損失: 式 (7) は 3D ニューラル シーン表現を 2D 観察と結び付けるため、単純な RGB 再構築損失を使用してシーン表現を最適化できます
ここに画像の説明を挿入
R は、各反復でランダムにサンプリングされたピクセル/レイを表します、CCCは入力ピクセルのカラー値です。

RGB ワーピング ロス: カラー入力のみから幾何学的一貫性をさらに強化するために、単純なピクセルごとのワーピング ロスも追加します。mmの場合mフレーム内のピクセルrm r_mrメートル、最初に式 (8) を使用して深度値をレンダリングし、それを 3D 空間に投影し、次に nn番目の値を使用します。nフレームの内部パラメータと外部パラメータが別のフレームに投影されます。近くのキーフレームnnn内の投影ピクセル rm → n は、r_{m→n} で表されます。rm nr_{m→n}$と表現します次に、変形損失を次のように定義します。

ここに画像の説明を挿入
ここでK m K_mKメートル現在のフレームを示しますmmフレームmmを除く、 mのキーフレームのリストm自体。nnフレームに入りますnの画像境界の外側に投影されたピクセルは[11] とは異なり、単にピクセル ワーピングを実行する方が、ランダムにサンプリングされたピクセルに対してパス ワーピングを使用するよりも効率的であり、パフォーマンスも低下しないことに注意してください。

オプティカル フロー ロス: RGB レンダリングとワーピング ロスは両方とも、極小値の影響を受けやすいポイントベースの用語です。したがって、オプティカル フロー推定に基づいて損失を追加します。これにより、領域の平滑性事前分布が考慮され、曖昧さの解決に役立ちます。想定フレームmmmのサンプリングされたピクセルはrm r_mrメートル、フレームnnでの対応する投影ピクセルnはrn r_nですrの場合、オプティカル フロー損失は次のように追加できます。
ここに画像の説明を挿入
ここで、GM ( rm → n ) GM(r_{m→n})GM rm n) は、 GMFlow [66] から推定されたオプティカル フローを示します。

単眼深度損失: RGB 入力が与えられると、幾何学的手がかり (深度または法線など) は、既製の単眼深度推定器によって取得できます [12]。[71] に触発されて、ニューラルの暗黙的な表面再構築をガイドするために、この情報も最適化に含めます。
より具体的には、レンダリングで深さD ^ \hat{D}を期待するにはD^と単眼の深さD ˉ \bar{D}Dˉ間の深い一貫性を強制するために
ここに画像の説明を挿入

…詳しくは顧岳州を参照

おすすめ

転載: blog.csdn.net/lovely_yoshino/article/details/129225286