古典文学の読書 - NICE-SLAM (SLAM のニューラル暗黙的スケーラブル コーディング)

0. はじめに

ディープ ラーニングにとって、NeRF は過去 2 年間で最も注目されている仕事の 1 つであるに違いありません。**NeRF (Neural Radiance Fields)** は、2020 ECCV カンファレンスで最初の最優秀論文となり、暗黙的な表現をトップに押し上げました。高さは、2D ポーズ画像のみを監視として使用して、複雑な 3D シーンを表現できます。NeRF の急速な発展は、新しい視点合成、3D 再構成などの多くの技術的方向にも適用され、非常に良い結果を達成しました。前回「古典文学読解 - NeRF-SLAM (Monocular Dense Reconstruction)」でNeRFの技術原理について触れましたが、次にNICE-SLAMを核とした既存のNeRFの欠点と開発について紹介します。

1. 欠点と開発

NeRF の最大の貢献は、ニューラル フィールドとグラフィックス コンポーネントのボリューム レンダリングの効果的な組み合わせです。NLP ニューラル ネットワークを通じて 2D 位置と 3D 空間座標を渡すことで、3D シーンを暗黙的に学習します。まず、NeRF の問題に注目してください。主な問題は、速度が遅い、静的なシーンのみである、一般化が不十分である、および多数の視点が必要である、です。さまざまな記事の改善の方向性を確認するために、簡単な分析を行うための記事がいくつか見つかりました。次のセクションでは、NeRF を SLAM に適用する方法に焦点を当てます。NICE-SLAMに基づいて詳しく分析してみましょう。

1.1 神経の疎なボクセル フィールド

この作業では、高速かつ高品質の視点フリー レンダリングのための新しいニューラル シーン表現である Neural Sparse Voxel Fields (NSVF) を導入します。NSVF は、各セルのローカル プロパティをモデル化するために、スパース ボクセル オクツリーに編成されたボクセル境界の暗黙的フィールドのセットを定義します。一連のポーズの RGB 画像のみから、識別的なレイ マーチング操作を介して、基礎となるボクセル構造を段階的に学習します。スパースボクセルオクツリー構造を使用すると、関連するシーンコンテンツを含まないボクセルをスキップすることで、新しいビューのレンダリングを高速化できます。

1.2 ミップ-NeRF

Mip-NeRF は、光線の代わりに円錐台と呼ばれる幾何学的形状を使用して各ピクセルをレンダリングします。これによりエイリアシングが減少し、画像の細部が明らかになり、エラー率が 17 ~ 60% 削減されます。このモデルは NeRF よりも 7% 高速です。

1.3 NeRF-SR

NERF-SR は、高解像度 (HR)、主に低解像度 (LR) 入力の新しいビュー合成のためのソリューションです。このメソッドは、複数の発射レイヤーでポイントごとの密度と色を予測する神経放射線場 (NERF) に基づいて組み込まれています。任意のスケールで画像を生成する際、NERF は観察された画像を超える解像度で動作します。NERF-SR は、ネットワークを改良することでスーパーサンプリングのパフォーマンスをさらに向上させることができます。これにより、推定された深度を利用して、HR 参照画像上の相関パッチを幻覚することができます。

1.4キロNeRF

KiloNeRF は、主にディープ MLP ネットワークを何百万回もクエリする必要性に関連する、NeRF のレンダリングの遅さの問題を解決します。KiloNeRF は、複数のクエリを必要とする 1 つの大きな MLP ではなく、ワークロードを数千の小さな MLP に分割します。それぞれの小さな MLP はシーンの一部を表し、ストレージ要件を削減し、同等のビジュアル品質でパフォーマンスを 3 倍向上させることができます。

1.5 プレノセル

Plenoxels は、NeRF 中央 MLP を疎な 3D メッシュに置き換えます。各クエリ ポイントは周囲のボクセルから補間されます。その結果、ニューラル ネットワークを実行せずに新しい 2D ビューをレンダリングできるため、複雑さと計算要件が大幅に軽減されます。Plenoxels は、NeRF と同様の視覚品質を提供しながら、2 桁高速です。

1.6 レグネRF

NERF は、多くの入力ビューが利用可能な場合、目に見えない視点のフォトスタティック レンダリングを生成できますが、この数が減少するとパフォーマンスが大幅に低下します。スパース入力スキームにおけるアーティファクトのほとんどは、シーンのジオメトリを推定する際のエラーと、トレーニング開始時の異なる動作によって引き起こされることが観察されています。私たちは、観察されていない視点から提示されたパッチの形状と外観を正規化し、トレーニング中にレイ サンプリング空間をアニーリングすることで、この問題に対処します。また、正規化されたフロー モデルを使用して、観測されていない視点の色を正規化します。私たちのモデルは、個々のシーンを最適化する他の方法よりも優れているだけでなく、多くの場合、大規模なマルチビュー データセットで広範囲に事前トレーニングされた条件付きモデルよりも優れています。

1.7 ダイナミックビュー合成の高速最適化のためのニューラル変形可能ボクセルグリッド

Neural Radiation Fields (NERF) は、Novel View Synthesis (NVS) の優れたパフォーマンスに革命をもたらしています。ただし、NERF とその亜種では、キャプチャされた画像に多層パーセプトロン (MLP) を適合させる、フィールドごとの長時間のトレーニング手順が必要になることがよくあります。この課題に対処するために、トレーニングを大幅に高速化するボクセル グリッド表現が提案されています。ただし、これらの既存のメソッドは静的なシーンのみを処理できます。効率的かつ正確な動的ビュー合成方法を開発する方法は依然として未解決の問題です。シーンのジオメトリと外観は時間の経過とともに変化するため、静的シーンへのアプローチを動的シーンに拡張することは簡単ではありません。この論文では、ボクセルグリッド最適化における最近の進歩に基づいて、動的シーンを処理するための急速に変形可能な放射線場法を提案します。私たちのアプローチは 2 つのモジュールで構成されます。最初のモジュールは、3D 動的フィーチャを保存する変形可能なメッシュと、内挿関数を使用して観測空間内の 3D 点を標準空間にマッピングする変形可能な軽量 MLP を採用します。2 番目のモジュールには、シーンのジオメトリと密度をモデル化する密度メッシュとカラー メッシュが含まれています。オクルージョンは明示的にモデル化され、レンダリング品質がさらに向上します。実験結果は、私たちの方法がわずか20分のトレーニングでD-NERFと同等のパフォーマンスを達成できることを示しており、これはD-NERFよりも70倍以上高速であり、提案した方法の効率を明確に示しています。

2. NICE-SLAMの具体的な貢献

NICE-SLAM は、階層的なシーン表現を導入することでマルチレベルのローカル情報を組み込んだ高密度 SLAM システムです。事前にトレーニングされた幾何学的事前学習を使用してこの表現を最適化すると、大規模な屋内シーンでの詳細な再構築が可能になります。最近のニューラル隠れ SLAM システムと比較して、私たちの方法はよりスケーラブルで効率的かつ堅牢です。

  1. 私たちは、リアルタイム、スケーラブル、予測可能で、さまざまな困難なシナリオに対して堅牢な高密度 RGB-D SLAM システムである NICE-SLAM を提案します。

  2. NICE-SLAM の中心となるのは、階層的なグリッドベースのニューラル暗黙的エンコーディングです。グローバル ニューラル シーン エンコーディングとは対照的に、この表現では、大規模なメソッドの前提条件であるローカル更新が可能になります。

  3. 当社はさまざまなデータセットに対して広範な評価を実行し、マッピングと追跡における競争力のあるパフォーマンスを実証します。

3. 全体の枠組み

この記事では、図 2 にアプローチの概要を示します。4 つの特徴グリッドと対応するデコーダーを使用して、シーンのジオメトリと外観を表現します (セクション 3.1)。推定されたカメラ キャリブレーションを使用して、各ピクセルの観測光線を追跡します。観測光線に沿って点をサンプリングし、ネットワークにクエリを実行することで、この光線の深度と色の値をレンダリングできます (セクション 3.2)。深度と色の再レンダリング損失を最小限に抑えることで、キーフレーム選択 (セクション 3.4) を交互に行う方法で、カメラのポーズとシーンのジオメトリ (セクション 3.3) を最適化することができます。

ここに画像の説明を挿入

4. 階層的なシーン表現

次に、マルチレベルのグリッド機能と占有を予測する事前トレーニングされたデコーダーを組み合わせた階層的シーン表現を紹介します。ジオメトリは 3 つの特徴グリッドϕ θ l ϕ^l_θにエンコードされますϕおよびそれに対応する MLP デコーダflf^lfl、ここでl ∈ 0 , 1 , 2 l ∈ {0,1,2}0 1 2 は、粗い、中程度、細かいシーンの詳細を指します。さらに、別の特徴グリッドψ ω ψ_ωpおおそしてデコーダg ω g_ωgおおシーンの外観をシミュレートします。ここでθθθωωω は、ジオメトリと色の最適化可能なパラメータ、つまりグリッドの特徴とカラー デコーダの重みを示します。

4.1 中間および詳細レベルのシーン ジオメトリ表現

中レベルおよび詳細レベルのシーン ジオメトリ表現では、観察されたシーン ジオメトリは中レベルおよび詳細レベルのフィーチャ メッシュによって表されます。再構築中、これら 2 つのメッシュを粗いものから細かいものへのアプローチで使用します。この場合、最初に中レベルのフィーチャ メッシュ最適化でジオメトリが再構築され、次に細かいレベルのメッシュでリファインされます。実装では、16 cm と 8 cm を使用する TUM RGBD [46] を除き、辺の長さが 32 cm と 16 cm のボクセル グリッドを使用します。中間レベルの特徴グリッドの場合は、関連する MLP f 1 f^1を使用します。f1 は、フィーチャを占有値に直接デコードします。任意の点p ∈ R 3 p∈\mathbb{R}^3pR3、占有値を取得します
ここに画像の説明を挿入
。上の式では、ϕ θ 1 ( p ) ϕ^1_θ(p)ϕ1( p )は点pppでの三重線形補間の固有グリッド解像度が比較的低いため、観察用にメッシュ フィーチャを効率的に最適化できます。シーン ジオメトリの小さな高周波の詳細をキャプチャするために、残余の方法で細かいレベルの特徴を組み込みます。ファインレベル特徴デコーダは、対応する中間レベルおよびファインレベル特徴を入力として受け取り、中間レベル占有のオフセットを出力します。
ここに画像の説明を挿入
ポイントの最終的な占有率は、
ここに画像の説明を挿入
事前にトレーニングされたデコーダーf 1 f^1f1f 2 f^2f2 、最適化プロセス全体でϕ θ 1 ϕ^1_θϕ1ϕθ2ϕ^2_θϕ2これが最適化を安定させ、一貫したジオメトリを学習するのに役立つことを示します。

4.2 粗粒度の階層

粗粒度の階層では、フィーチャ グリッドを使用してシーンの高レベルの幾何学的フィーチャ (壁、床など) をキャプチャし、中レベルおよび細かいレベルの階層とは独立して最適化します。粗いグリッドの目的は、各粗いボクセルが部分的にしか観察されない場合でも、観察されたジオメトリの外側のおおよその占有値 (中/細かいレベルの階層でエンコードされた) を予測できるようにすることです。したがって、実装では辺の長さが 2 メートルの非常に低い解像度を使用しました。中間レベルのグリッドと同様に、特徴を内挿し、MLP f 0 f^0を渡します。f0は占有値に直接デコードされます。つまり、
ここに画像の説明を挿入
追跡中、粗いレベルの占有値は、シーンの以前に観察されていない部分を予測するためにのみ使用されます。この予測されたジオメトリにより、これまでに見られなかった現在の画像の大部分を追跡できるようになります。

4.3 事前トレーニングされた特徴デコーダー

フレームワークでは 3 つの異なる固定 MLP が使用され、グリッド フィーチャを占有値にデコードします。粗いデコーダと中間レベルのデコーダは、CNN エンコーダと MLP デコーダを含む ConvONet [38] の一部として事前トレーニングされています。[38] と同じように、バイナリのクロスエントロピー損失を使用して、予測とグラウンド トゥルースの間でエンコーダー/デコーダーをトレーニングします。トレーニング後は、観測値に合わせて特徴を直接最適化するため、デコーダー MLP のみを使用します。このようにして、事前トレーニングされたデコーダーは、トレーニング セットから学習した解像度固有の事前分布を利用でき、最適化された特徴をデコードするときに、同じ戦略がファインレベル デコーダーの事前トレーニングに使用されます。デコーダに入力する前を除いて、中間層の特徴を取得するだけですϕ θ 1 ( p ) ϕ^1_θ (p)ϕ1( p )と微細層の特徴ϕ θ 2 ( p ) ϕ^2_θ(p)ϕ2( p )は入力用に連結されており、残りは粗粒度の情報を考慮する必要があります。

4.4 色の表現

私たちは主にシーンのジオメトリに焦点を当てていますが、色情報もエンコードして、RGB イメージをレンダリングできるようにし、トラッキング用の追加信号を提供します。シーン内の色をエンコードするには、別の特徴グリッドψ ω ψ_ωを適用します。pおおそしてデコーダg ω g_ωgおお
ここに画像の説明を挿入
ここでω・ωω は最適化中に学習可能なパラメータを示します。強力な事前知識のある幾何学とは異なり、色の特徴ψ ω ψ_ωpおおそしてデコーダg ω g_ωgおお追跡パフォーマンスを向上させることができます。iMAP [47] と同様に、これは物忘れの問題を引き起こす可能性があり、色は局所的にのみ一貫していることに注意してください。シーン全体の色を視覚化したい場合は、後処理ステップとしてこれをグローバルに最適化できます。

4.5 ネットワーク設計

すべての MLP デコーダでは、32 次元の隠れた特徴次元と 5 つの完全に接続されたブロックを使用します。粗粒度の幾何学的表現に加えて、MLP デコーダへの入力前に学習可能なガウス位置エンコーディング [47,50] を p に適用します。これにより、幾何学的形状と外観の高周波の詳細を検出できます。

5. 奥行きと演色性

NeRF でのボリューム レンダリングの最近の成功に触発され、セクション 3.1 で予測された占有率と色をシーン表現に組み込む微分可能なレンダリング プロセスを使用することを提案します。

…詳しくは顧岳州を参照

おすすめ

転載: blog.csdn.net/lovely_yoshino/article/details/128708926