【論文閲覧】NeRFに基づく3D再構成の批判的解析

ここに画像の説明を挿入します

抽象的な

この論文では、従来の写真測量との定量的比較に焦点を当て、神経放射線場 (NeRF) を使用した画像ベースの 3D 再構成の重要な分析を提供します。したがって、目的は、NeRF の長所と短所を客観的に評価し、小さな物体から遺産や産業のシナリオに至るまで、さまざまな現実のシナリオにおける NeRF の適用可能性についての洞察を得ることです。写真測量と NeRF 手法の包括的な概要を説明した後、それぞれの長所と短所を強調し、テクスチャレス、金属、半透明、透明な表面を含む、サイズと表面特性が異なるさまざまなオブジェクトを使用してさまざまな NeRF 手法を比較します。ノイズ レベル、幾何学的な精度、必要な画像 (つまり、画像ベースライン) の数など、いくつかの基準を使用して 3D 再構成結果の品質を評価しました。結果は、NeRF が、テクスチャのない反射面と屈折面を持つ非協調的なオブジェクトの写真測量に対して優れたパフォーマンスを示すことを示しています。対照的に、オブジェクトの表面に協調的なテクスチャがある場合、写真測量は NeRF よりも優れたパフォーマンスを発揮します。この相補性は、将来の研究でさらに活用される必要があります。

1. はじめに

コンピューター ビジョンと写真測量の分野では、高品質の 3D 再構成が重要なテーマであり、品質検査、リバース エンジニアリング、構造モニタリング、デジタル保存など、多くの用途に応用されています。しかし、低コストでポータブルかつ柔軟な 3D 再構成では、長年にわたり、高い幾何学的精度と高解像度の詳細を提供する測定技術が高い需要を占めてきました。既存の 3D 再構成手法は、接触技術と非接触技術に大別できます [1]。物体の正確な 3D 形状を決定するために、接触ベースの技術では多くの場合、ノギスや座標測定機などの物理ツールが使用されます。正確な幾何学的 3D 測定は実現可能であり、多くのアプリケーションに適していますが、データの取得とまばらな 3D 再構成の実行に必要な時間の長さ、測定システムの制限、および/または高価な機器の必要性など、いくつかの欠点があります。これにより、専門の研究室や独自の計測仕様を持つプロジェクトでの使用が制限されます。一方、非接触技術を使用すると、それに伴う欠点を伴うことなく、正確な 3D 再構成が可能になります。ほとんどの研究者は、工業用検査や品質管理 [2-5] や従来の 3D ドキュメント [6-9] など、幅広い用途で低コスト、移植性、柔軟性を備えているため、パッシブ画像ベースの手法に焦点を当てています。
ここに画像の説明を挿入します
図 1. NeRF シーン表現の基本概念 ([16] 以降) – セクション 2.2 も参照。

図1に示すように、ニューラルネットワークは空間位置(x、y、z)と観測方向(θ、φ)からなる連続5次元座標を入力として、各方向における各点の体積密度を出力します。 (σ) と視線方向に関連する発光放射輝度 (RGB)。次に、NeRF はある角度からレンダリングされ、たとえばカメラ光線を移動させることによって 3D ジオメトリをメッシュの形で導き出すことができます [23]。
ただし、最近の人気にもかかわらず、NeRF ベースの手法は、生成された 3D モデルの品質を客観的に定量化し、その利点と限界を完全に理解するために、より伝統的な写真測量と比較して批判的に分析する必要があります。

この研究の目的
NeRF 手法は、画像ベースの 3D 再構成の分野において、写真測量やコンピュータ ビジョンに代わる有望な手法として最近登場しました。したがって、本研究は、3D 再構成のための NeRF 手法を徹底的に解析することを目的としています。NeRF ベースの技術を使用して生成された 3D 再構成の精度を、さまざまなサイズおよび表面特性 (テクスチャ付き、テクスチャなし、金属、半透明、透明) のオブジェクトの写真測量を通じて評価します。各手法で生成されたデータを、表面偏差 (ノイズ レベル) と幾何学的精度の観点から検査しました。最終的な目標は、現実世界のシナリオにおける NeRF 手法の適用可能性を評価し、NeRF ベースの 3D 再構成手法の利点と限界に関する客観的な評価指標を提供することです。
この論文は次のように構成されています。 セクション 2 では、写真測量ベースおよび NeRF ベースの方法を使用した 3D 再構成に関するこれまでの研究活動の概要を説明します。セクション 3 では、提案された品質評価プロセスと使用されたデータセットを紹介し、セクション 4 では評価結果と比較結果を報告します。最後に、セクション 5 では結論と今後の研究計画を示します。

2. 最先端の技術

このセクションでは、写真測量法と NeRF ベースの手法を組み合わせ、非協働表面 (反射面、テクスチャレス面など) への適用を考慮した、これまでの 3D 再構成研究の包括的な概要を示します。

2.1. 写真測量ベースの方法

写真測量法は、テクスチャーの優れたオブジェクトの 3D モデリングに広く受け入れられている手法であり、マルチビュー ステレオ (MVS) 手法を通じてオブジェクトの 3D 形状を正確かつ確実に復元できます。写真測量ベースの方法 [19、24–30] は、深さの推定に特徴マッチングに依存する [27、28] か、形状を表すためにボクセルを使用します [24、29、31、32]。学習ベースの MVS 手法も利用できますが、これらは通常、特徴マッチング [33–36]、ディープフュージョン [37,38]、またはマルチビュー画像深度推論 [39–41] などの古典的な MVS パイプラインの一部を置き換えます。 。ただし、すべての写真測量法では複数の画像間の一致する対応が必要であるため、テクスチャのない反射面または屈折面を持つオブジェクトは再構築が困難です [14]。この問題に対処するために、これらの非協調的なオブジェクトを再構築するためのさまざまな写真測量法が開発されてきました。テクスチャのないオブジェクトについては、ランダム パターン投影 [13、42、43] や合成パターン [14、44] などの解決策が提案されています。ただし、これらの方法では、強い鏡面反射や相互反射を伴う高反射表面を処理するのが困難です [43]。交差偏光 [7,45] や画像前処理 [46,47] などの他の方法は、反射面や非協力面に使用されていますが、一部の技術は表面の粗さを滑らかにし、ビュー間のテクスチャの一貫性に影響を与える可能性があります [48、49]。写真測量法はハイブリッド法 [50-53] でも使用されており、MVS 法はフォトメトリック ステレオ (PS) を使用した高解像度測定の基礎として機能するまばらな 3D 形状を生成するために使用されます。従来の [52、54、55] および学習ベースの [56-58] PS 手法も、画像の放射照度方程式を理解し、画像化されたオブジェクトの形状を取得するために使用されますが、鏡面はすべての画像ベースの手法にとって依然として課題です。

2.2. NeRF ベースのメソッド

リアルな画像とビデオの合成はコンピュータ グラフィックスの核心であり、数十年にわたって研究の焦点となってきました [59]。ニューラル レンダリングは、シーンのプロパティ (照明、カメラ パラメーター、ポーズ、ジオメトリ、外観など) を制御するための学習ベースの画像およびビデオ生成方法です。ニューラル レンダリングは、ディープ ラーニング手法とコンピューター グラフィックスの物理学を組み合わせて、制御可能で現実的な (3D) シーン モデルを実現します。このうち、NeRF は Mildenhall らによって最初に提案されました。2020 年には、これは新しいビューをレンダリングし、暗黙的表現を使用して 3D シーンを再構築する方法です (図 1)。NeRF 手法では、ニューラル ネットワークを使用して 2D 画像から物体の 3D 形状を学習します。式 (1) で定義されているように、放射線場は、シーン内のすべての点の色と体積密度を、考えられるすべての視線方向からキャプチャします。

ここに画像の説明を挿入します

NeRF モデルはニューラル ネットワークで表されます。マルチビューの一貫性を確保するために、σ の予測は視線方向に依存しないように設計されていますが、色 c は視線方向と位置に応じて変化する可能性があります。この目標を達成するために、多層パーセプトロン (MLP) が 2 つのステップで使用されます。最初のステップでは、MLP は X を入力として受け取り、σ と高次元の特徴ベクトルを出力します。次に、特徴ベクトルは視線方向 d と結合され、追加の MLP を通過して色表現 c が生成されます。元の NeRF 実装とその後の方法では、式 (2) ~ (4) に示すように、非決定論的な層化サンプリング アプローチが採用されていました。この方法では、光線を N 個の等間隔のビンに分割し、各ビンから均一にサンプルを取得します。
ここに画像の説明を挿入します
ここで、δi は連続するサンプル間の距離 (i と i + 1) を表し、σi と ci はサンプルに沿った点を表します (推定された濃度と色の値) i)の。サンプリング点 (i) における透明度または不透明度 αi は、式 (4) を使用して計算することもできます。
連続法 [60–62] では、式 (5) に示すように、推定された深度も組み込んで、密度に制約を課して密度をシーン表面のデルタ関数と同様にするか、深度の滑らかさを強制します。
ここに画像の説明を挿入します
各ピクセルの二乗誤差測光損失を使用するMLPパラメータ:

ここに画像の説明を挿入します
ここで、変数 Cgt® は、レイ r に対応するトレーニング画像内のピクセルのグラウンド トゥルース カラーを表し、R は、合成される画像に関連付けられたレイのバッチを指します。学習された NeRF 暗黙的 3D 表現がビュー レンダリングに指定されていることに注意してください。明示的な 3D ジオメトリを取得するには、各光線の深度分布の尤度を最大にして、さまざまなビューの深度マップを抽出する必要があります。これらの深度マップを融合して点群を導出したり、Marching Cube [23] アルゴリズムに入力して 3D メッシュを導出したりすることができます。
NeRF は、従来の写真測量法と比較して 3D 再構成の代替ソリューションを提供し、さまざまな著者によって報告されているように、写真測量法が正確な結果を提供しない可能性がある状況でも有望な結果を生み出すことができますが、依然としていくつかの制限に直面しています [63-68]。3D 計測学の観点から、考慮すべき主な問題には次のようなものがあります。

(1) 結果として得られるニューラル レンダリング (その後 3D メッシュに変換される) の解像度は、入力データの品質と解像度によって制限される可能性があります。一般に、入力データの解像度が高いほど、3D メッシュの解像度も高くなりますが、その代わりに計算要件が増加します。
(2) NeRF を使用したニューラル レンダリングの生成 (および 3D メッシュの生成) は、大量の計算を必要とする可能性があり、大量の計算能力とメモリを必要とします。
(3) 一般に、非剛体オブジェクトの 3D 形状を正確にモデル化することは不可能です。
(4) 元の NeRF モデルは、ピクセルごとの RGB 再構成損失に基づいて最適化されます。これは、RGB 画像のみを入力として使用する場合、フォトコンシステントな解釈が無限に存在するため、ノイズの多い再構成につながる可能性があります。
(5) NeRF は通常、正確な 3D メッシュを生成するために、特に複雑なジオメトリやオクルージョンのあるシーンの場合、小さなベースラインを持つ多数の入力画像を必要とします。画像の入手が難しい場合や、コンピューティング リソースが限られている場合、これは課題となる可能性があります。

上記の問題に対応して、研究者らは、パフォーマンスと 3D 結果を向上させるために、元の NeRF 手法に対するいくつかの修正と拡張を提案しました。タンシクら。[69]およびSitzmanら。NeRF の高周波表現能力が不十分であるため、[70] はニューラル レンダリング結果の解像度を向上させるために、NeRF とは異なる周波数での位置エンコード操作を採用しました。これに続いて、モデルの高速化 [20、71]、圧縮 [72-74]、再ライティング [75-77]、ビュー依存の正規化 [ 78] (Zhu et al., 2023) または高解像度 2D フィーチャ平面 [68]。ミュラーら。[20] は、3D モデルの高速かつ効率的な生成を可能にする、多重解像度ハッシュ エンコーディングを備えたオンザフライ ニューログラフィック プリミティブの概念を導入しました。バロンら。[64, 79] は、Mip-NeRF がオリジナルの NeRF の修正バージョンであり、シーンを継続的に評価されるスケールで表現できるようにすることを提案しました。Mip-NeRF は、光線の代わりにアンチエイリアシングされた錐台を効果的にレンダリングすることで、NeRF の細部を強調する能力を大幅に向上させます。ただし、このアプローチにはトレーニングの難しさや計算効率の問題などの制限がある可能性があります。チェンら。[72] は、シーンの放射線フィールドを 4D テンソルにモデリングおよび再構築するための Tensorf と呼ばれる新しい方法を提案しました。この方法は、ボクセルごとにマルチチャネルの特徴を持つ 3D ボクセル グリッドを表します。このアプローチは、優れたレンダリング品質を提供することに加えて、以前および最新の方法と比較してメモリ使用量を大幅に削減します。ヤンら。[80] は、NeRF の利点と測光ステレオ法を組み合わせた、PS-NeRF と呼ばれる融合ベースの方法を提案しました。この方法は、NeRF のシーンを再構築する機能を活用することで従来のフォトメトリック ステレオ技術の限界に対処し、最終的に得られるメッシュの解像度を向上させることを目的としています。ライザーら。[68] は、まばらなフィーチャ グリッドと高解像度の 2D フィーチャ プレーンを利用して、大規模シーンの高速レンダリングを可能にするメモリ効率放射場 (MERF) 表現を導入しました。リーら。[21] は、多解像度 3D ハッシュ グリッドとニューラル サーフェス レンダリングを利用して、マルチビュー画像から密な 3D 表面構造を回復する優れた結果を達成する革新的な方法である Neuralangelo を紹介しました。これにより、RGB ビデオ キャプチャからの非常に詳細な大規模シーンの再構成が実現されます。 。

NeRF を動的ドメインに拡張するために、いくつかの方法 [67、81-85] が提案されています。これらの方法により、シーン内を移動する単一のカメラからの剛体および非剛体の動きを受けているオブジェクトの画像を再構築してレンダリングすることが可能になります。たとえば、ヤンら。[84] は、表面認識動的 NeRF (NeRF-DS) とマスク誘導変形場を導入しました。NeRF-DS は、神経放射場関数の変調因子として表面の位置と向きを組み込むことにより、鏡面の複雑な反射特性の表現を改善します。さらに、マスクを使用して変形フィールドをガイドすることで、NeRF-DS はオブジェクトの動作中に発生する大きな変形やオクルージョンを効果的に処理できるようになります。

ノイズが存在する場合、特に滑らかでテクスチャのない表面の 3D 再構成の精度を向上させるために、いくつかの研究では最適化プロセスにさまざまな事前分布を組み込んでいます。これらの事前分布には、意味的類似性 [86]、深さの滑らかさ [60]、表面の滑らかさ [87、88]、マンハッタン世界仮説 [89]、単眼幾何学的事前分布 [90] が含まれます。対照的に、Bian らによって提案された NoPe-NeRF 法は、[91] モノクロ マップを使用してフレーム間の相対的なポーズを制約し、NeRF のジオメトリを正規化します。この方法により、より適切な姿勢推定が可能になり、それによって新しいビューの合成と幾何学的再構成の品質が向上します。ラコトサナら。[92] は、NeRF 駆動の方法から体積表現を符号付き表面近似ネットワークに効率的に抽出できる、3D 表面再構成のための新規で汎用性の高いアーキテクチャを導入しました。このアプローチでは、さまざまなデバイスにわたってリアルタイム レンダリング機能を維持しながら、正確な 3D メッシュと外観を抽出できます。エルスナーら。[93] は、ボロノイ図を使用してシーンをユニットに分割することで処理効率を向上させる手法である適応型ボロノイ NeRF を提案しました。これらのユニットはさらに細分化され、複雑な詳細を効果的に捉えて表現し、パフォーマンスと精度を向上させます。同様に、Kulhanek と Sattler [94] は、tera-NeRF と呼ばれる新しい放射線場表現を導入しました。これは、より詳細を活用するために、まばらな点群の形で与えられる 3D 幾何学的事前分布にうまく適応しました。ただし、レンダリングされたシーンの品質は、さまざまな領域の点群の密度に応じて異なる場合があることに注意してください。

作品によっては、入力画像の数を減らすことを目的としている[60、70、78、86、90、95]。ユウら。[95] は、完全な畳み込みアプローチを使用して画像入力で NeRF を調整するアーキテクチャを提案し、ネットワークが複数のシーンでトレーニングする前に 1 つのシーンを学習できるようにしました。これにより、少数 (または 1 つだけ) の視点からフィードフォワード ビュー合成を実行できるようになります。同様に、Niemeyer et al. [60] は、目に見えないビューをサンプリングし、これらのビューから生成されたパッチの外観とジオメトリを正規化する方法を導入しました。ジェインら。[86] は、セマンティックな一貫性の喪失を支援することでスモール ショットの品質を向上させ、それによって新しい場所の現実的なレンダリングを向上させることを DietNeRF に提案しました。DietNeRF は、個々のシーンから学習して、入力画像を同じ位置に正確にレンダリングし、さまざまなランダムなポーズにわたって高レベルのセマンティック特徴を照合します。

文化遺産の分野では、3D 復元、デジタル保存、保全目的での NeRF の可能性を明確に調査し認識している出版物はわずかです [96,97]。

3. 分析・評価方法

主な目標は、結果として得られる 3D データの品質を客観的に測定することで、従来の写真測量における NeRF ベースの手法を批判的に評価することです。これを達成するには、テクスチャ付き、テクスチャなし、メタリック、半透明、透明など、サイズや表面特性が異なるさまざまなオブジェクトやシーンを考慮する必要があります (セクション 3.3)。提案された評価戦略と評価指標 (セクション 3.1 および 3.2) は、研究者が各手法の長所と限界を理解するのに役立ち、新しく提案された手法を定量的に評価するために使用できます。すべての実験は、SDFStudio [98] および Nerfstudio [22] フレームワークに基づいています。NeRF 出力はニューラル レンダリングであるため、マーチング キューブ法 [23] を使用してビューごとに異なる深度マップからメッシュ モデルが作成されることを思い出してください。次に、Open3D ライブラリを使用して、定量的評価のためにメッシュ頂点から点群を抽出します [78]。

3.1. 提案された方法論

まず、専用フレームワーク [22、98] で利用可能なさまざまな NeRF メソッドを 2 つのデータセットに適用して、そのパフォーマンスを理解し、最もパフォーマンスの高いメソッドを選択します (セクション 4.1)。次に、この方法を他のデータセットに適用して、従来の写真測量と利用可能なグランド トゥルース (GT) データを評価および比較します (セクション 4.2 ~ 4.7)。
図 2 は、NeRF ベースの 3D 再構成のパフォーマンスを定量的に評価するために提案された手順の概要を示しています。収集されたすべての画像またはビデオには、従来の写真測量法または NeRF ベースの方法を使用して 3D 再構成を生成するためのカメラ ポーズが必要です。利用可能な画像から始めて、Colmap を使用してカメラのポーズを取得します。次に、マルチビュー ステレオ (MVS) または NeRF を適用して 3D データを生成します。最後に、客観的な幾何学的比較を提供するためのユニークで強力な環境と条件を提供します。この目標を達成するために、写真測量データと NeRF で生成された 3D データが同時に登録され、Cloud Compare で利用可能なグランド トゥルース (GT) データと比較して (反復最近点 (ICP) アルゴリズム [99] を使用して) 再スケーリングされ、品質検査が実行されました。幾何学的精度の公平な評価を提供するために、最良の平面適合、クラウド間の比較、分析、精度、完全性などのさまざまなよく知られた基準 [13、43、100–102] が適用されます。最初の 2 つは次のとおりです。標準偏差 (STD)、平均誤差 (Mean_E)、二乗平均平方根誤差 (RMSE)、平均絶対誤差 (MAE) などの標準指標を使用 (セクション 3.2) Remote Sens. 2023、15、x FOR PEER REVIEW 7 of 22この方法は他のデータセットに適用され、従来の写真測量や利用可能なグランド トゥルース (GT) データに対して評価と比較 (セクション 4.2 ~ 4.7) が実行されます。図 2 は、NeRF ベースの 3D 再構成のパフォーマンスを定量的に評価するために提案された手順の概要を示しています。収集されたすべての画像またはビデオには、従来の写真測量法または NeRF ベースの方法を使用して 3D 再構成を生成するためのカメラ ポーズが必要です。利用可能な画像から始めて、Colmap を使用してカメラのポーズを取得します。次に、マルチビュー ステレオ (MVS) または NeRF を適用して 3D データを生成します。最後に、客観的な幾何学的比較を提供するためのユニークで強力な環境と条件を提供します。これを達成するために、写真測量と NeRF を使用して生成された 3D データが相互に登録され、Cloud Compare で利用可能なグラウンド トゥルース (GT) データに対して再スケーリングされ (反復最近接点 (ICP) アルゴリズム [99] を使用して)、一括評価が実行されました。幾何学的精度の評価には、さまざまなよく知られた基準が適用されます [13、43、100–102]、最適平面フィット分析、点群比較、定性分析、精度および完全性分析を含みます。最初の 2 つの基準、標準偏差 (STD)、平均誤差 (Mean_E)、二乗平均平方根誤差 (RMSE)、平均絶対値などのメトリクス

ここに画像の説明を挿入します
図 2. 従来の写真測量と比較した NeRF ベースの 3D 再構成のパフォーマンスを評価するために提案された手順の概要。

最適な平面フィッティングは、最小二乗フィッティング (LSF) アルゴリズムを使用して実現されます。このアルゴリズムは、オブジェクト領域 (領域が平面であると仮定) 上で最適な平面を定義します。
この規格を使用すると、3D データから断面を抽出して再構成された表面の複雑な幾何学的詳細を強調表示することにより、写真測量または NeRF me 解析によって生成された 3D データのノイズ レベルを評価できます。輪郭を調べることで、エッジやコーナーなどの幾何学的詳細を保持し、平滑化効果を回避する方法のパフォーマンスを評価できます。
クラウド間 (C2C) 比較とは、2 つの点群内の対応する点間の最近傍距離を測定することを指します。

3.2. メトリクス

3D 再構成を目的とした NeRF の人気が高まり、広く応用されているにもかかわらず、指定された標準またはガイドライン (VDI/VDE 2643 BLATT 3 など) に基づく品質評価情報が依然として不足しています。前述の共同登録プロセスと標準に従い、次のメトリクスが使用されます (特にクラウド間および平面フィッティング プロセスの場合)。

ここに画像の説明を挿入します
ここで、N は観測点群の数を表し、Xj は各点から対応する基準点または基準面までの最近接距離を表し、X は平均観測距離を表します。
精度と完全性は、それぞれ精度と再現率とも呼ばれます [101、102] には、2 つのモデル間の距離の測定が含まれます。精度を評価する場合、計算されたデータからグラウンド トゥルース (GT) までの距離が計算されます。代わりに、完全性を評価するために、GT から計算されたデータまでの距離が計算されます。これらの距離は、特定の評価方法に応じて、符号付きまたは符号なしで指定できます。精度は再構成されたポイントがグラウンド トゥルースとどの程度一致しているかを反映し、完全性はすべての GT ポイントがどの程度カバーされているかを示します。通常、許容可能なしきい値内に収まるポイントの割合またはパーセンテージを決定するために、しきい値距離が使用されます。しきい値は、データ密度やノイズ レベルなどの要因に基づいて決定されます。

3.3. オブジェクトのテスト

作業の目標を達成するために、さまざまなデータセットが使用されました (図 3)。データセットにはさまざまなサイズと表面タイプのオブジェクトがあり、さまざまな照明条件、素材、カメラ ネットワーク、スケール、解像度の下で撮影されました。
ここに画像の説明を挿入します
図 3. NeRF メソッドの評価に使用される、異なる表面特性を持つオブジェクトのセット。

Ignatius と Truck のデータセットは、Tanks と Temples のベンチマーク [101] から派生しており、GT データ (レーザー スキャンによって取得) も利用できます。他のデータセット (Stair、Synthetic、Industrial、Bottle_1、および Bottle_2) は FBK で作成されました。階段データセットは、鋭いエッジを備えた、平坦で反射性の高いテクスチャーのサーフェスを提供します。GTは理想的な段差面により実現されています。Blender v3.2.2 (ジオメトリ モデル、UV テクスチャおよびマテリアル用) および Quixel Mixer v2022 (PBR テクスチャ用) を使用して作成された合成 3D オブジェクトには、エッジやコーナーを含む複雑なジオメトリを備えたよくテクスチャされた表面があります。特定のパラメーター (焦点距離: 50 mm、センサー サイズ: 36 mm、画像サイズ: 1920 × 1080 ピクセル) を持つ仮想カメラを使用して、オブジェクトの周囲の螺旋状の曲線パスに沿った一連の画像を作成します。Blenderで生成した3DモデルをGTとして精度評価に使用しました。工業用オブジェクトの金属表面はテクスチャーが施されておらず、反射率が高いため、すべてのパッシブ 3D 手法に問題が生じます。その GT データは、Hexagon/AICON Primescan アクティブ スキャナーを使用して公称精度 63 μm で収集されました。透明な表面と屈折した表面を備えた 2 つのボトルも含まれています。これらの GT データは、表面を粉末化/スプレーした後、写真測量を使用して生成されました。

著者らは NeRF 手法の特定のベンチマークを準備中で、https://github.com/3DOM-FBK/NeRFBK [103] で利用できるようにする予定です。これには、実際のデータを含むさらに多くのデータセットが含まれています。

4. 比較と分析

このセクションでは、NeRF ベースの技術のパフォーマンスを評価し、標準の写真測量 (Colmap) と比較する実験を紹介します。複数の最先端の手法を比較した後 (セクション 4.1)、Instant-NGP が他の手法よりも優れた結果を提供するため、包括的な評価のための NeRF ベースの手法として選択されました。NeRF トレーニングは Nvidia A40 GPU を使用して実行され、3D 結果の幾何学的比較は標準の PC で実行されました。

4.1. 最先端の比較

主な目標は、複数の NeRF ベースの手法の包括的な分析を実行することです。この目標を達成するために、Yu らは SDFStudio 統合フレームワークを開発しました。[98] が使用されるのは、複数のニューラル陰的表面再構成手法を 1 つのフレームワークに組み合わせているためです。SDFStudio は、Nerfstudio フレームワーク [22] に基づいて構築されています。実装されたメソッドのうち、パフォーマンスを比較するために 10 個が選択されました: Nerfstudio の Nerfacto と Tensorf、SDFStudio の Mono-Neus、Neus-Facto、MonoSDF、VolSDF、NeuS、MonoUnisurf、UniSurf、および Müller et al. Implementation of InstantNGP のオリジナル。[20]。

2 つのデータセットが使用されます: (i) 200 枚の画像 (1920 × 1080 ピクセル) で構成される合成データセット、(ii) (ビデオから抽出された 1920 × 1080 ピクセルの解像度からの) 263 枚の画像を含む Ignatius データセット [101]。

GTデータとの比較結果を図4に示します。RMSE、MAE、および STD に関する結果は、Instant-NGP および Nerfacto メソッドが他のすべてのメソッドを上回って最高の結果を達成したことを示しています。処理時間に関しては、両方のデータセットでのモデルのトレーニングにかかる​​時間は、Instant-NGP の場合は 1 分未満、Nerfacto の場合は約 15 分です。Ignatius シーケンス (図 4b) の場合、MonoSDF、VolSDF、Neus-facto のニューラル レンダリングは視覚的に満足のいくものですが、派生メッシュ モデルのマーチング キューブは失敗するため、評価できないことに注意してください。

したがって、本稿では、達成された精度と処理時間に基づいて、その後の実験に Instant-NGP を選択して使用します。

ここに画像の説明を挿入します

図 4. 合成 (a) および Ignatius (b) データセットに対するさまざまな NeRF ベースの手法の比較結果。それぞれ 200 枚と 263 枚の画像が含まれています。

4.2. 画像ベースラインの評価

このセクションでは、入力画像の数が減少した場合 (つまり、ベースラインが増加した場合) の NeRF ベースの手法の評価を報告します。Instant-NGP と Mono-Neus (まばらな画像シナリオ用の確立された方法 [66, 90]) の比較評価が実施され、Instant-NGP が他の方法の中で最良の方法であると考えられました (セクション 4.1)。この実験では、200 ~ 20 画像の範囲の入力画像の 4 つのサブセットで構成される合成データセットを利用し (図 5)、入力画像の数を徐々に減らします (つまり、画像ベースラインを約 2 倍にします)。入力画像の各セットに対して、両方の NeRF メソッドを使用して 3D 結果を生成し、同様の数のエポックを維持します。図 5 に示すように、サブセットごとに、GT データとのポイントツーポイント比較によって RMSE が推定されます。研究結果は、大量の入力画像が利用可能な場合、Instant-NGP が Mono-Neus と比較して優れたパフォーマンスを発揮することを示しています。ただし、画像の数が少ないシナリオでは、Mono-Neus は Instant-NGP よりも優れたパフォーマンスを発揮します。ただし、Instant-NGP も Mono-Neus も、わずか 10 個の入力画像を使用して 3D 再構成を正常に生成できないことは注目に値します。

ここに画像の説明を挿入します
図 5. 包括的なデータセットのサブセットにおける Instant-NGP と Mono-Neus のパフォーマンスの比較評価。

4.3. モンテカルロシミュレーション

目的は、カメラのポーズの変更/摂動が発生した場合の NeRF ベースの 3D 結果の品質を評価することです。したがって、モンテカルロ シミュレーション [104] を使用して、限られた範囲内でカメラ パラメーターの回転と平行移動をランダムに摂動させます。摂動後、Instant-NGP を使用して 3D 再構成が生成され、参照データと比較されました。両方のケースで合計 30 回の反復 (実行) が実行されました: (A) 回転と平行移動は、平行移動の場合は ±20 mm、回転の場合は ±2 度の範囲でランダムに摂動されました。(B) 回転と平行移動は、その範囲で摂動されました。それぞれ±40mm、±2度、±4度。このシミュレーションの実行には Ignatius データ セットが使用され、その結果が図 6 と表 1 に示されています。この結果は、正確なカメラ パラメーターの重要性を明確に示しています。シナリオ A では、平均推定 RMSE は 19.72 mm、不確実性は 2.95 mm です。シナリオ B では、平均推定 RMSE はほとんど変化しません (19.97 mm) が、摂動範囲がより広いため、不確実性は 2 倍 (5.87 mm) になります。

ここに画像の説明を挿入します

図 6. 摂動されたカメラ パラメーターのモンテカルロ シミュレーション結果。表 1 は統計の概要を示しています。

ここに画像の説明を挿入します

表 1. Ignatius データセットでのモンテカルロ シミュレーション結果の概要。誤差マージンは最大 RMSE と最小 RMSE の差であり、不確かさは誤差マージンの半分として計算されます。

4.4. 平面フィッティング

平面フィッティング法は、再構成された平面上のノイズ レベルを評価/測定するために使用できます。Stair データセットを使用した最初の実験 (図 7a) では、写真測量点群と NeRF ベースの再構成が、同じ数の画像とカメラのポーズを使用して導出されました。2 つの水平面と 3 つの垂直面が特定され、最適化プロセスに従って分析されました (図 7b)。エクスポートされた指標を表 2 に示します。

ここに画像の説明を挿入します
図 7. 写真測量および NeRF 3D 再構築におけるノイズ レベルの評価に使用される Step データセット (a) と水平面および垂直面 (b) の画像。

ここに画像の説明を挿入します
表 2. 写真測量と Instant-NGP を使用して処理された Step データセットの 3D サーフェスのノイズ レベルの評価 [単位: mm]

以类似的方式,使用合成数据集,其中 200 个图像用于 Instant-NGP,24 个图像用于摄影测量处理。选择五个垂直平面和五个水平平面(如图 8 所示),通过将理想平面拟合到重建的物体表面来执行表面偏差分析。表 3 报告了导出的指标。

ここに画像の説明を挿入します
图 8. 用于评估的具有一些水平和垂直平面的合成对象。

ここに画像の説明を挿入します
表 3. 合成物体的摄影测量和 NeRF 结果的评估指标 [单位:mm]。

从这两个结果(表 2 和表 3)来看,很明显,对于这两个物体,摄影测量优于 NeRF,并且可以得出噪声较小的结果。一般来说,NeRF RMSE 至少比摄影测量高 2-3 倍。

4.5. Profiling

横截面轮廓的提取有助于证明 3D 重建方法检索几何细节或将平滑效果应用于 3D 几何的能力。第 4.4 节中提供的综合数据集的结果使用 Cloud Compare 进行处理:在预定义距离处提取多个横截面(图 9),并使用不同指标与参考数据进行几何比较,如表 4 中所示。

ここに画像の説明を挿入します

图 9. GT (a)、摄影测量 (b) 和 NeRF © 生成的网格的近视图。合成对象 (d) 上轮廓的不同位置。参考 3D 数据(黑线)、摄影测量(红线)和 NeRF(蓝线)结果的轮廓示例

ここに画像の説明を挿入します
表 4. 轮廓和指标的比较[单位:mm]——见图 9a

获得的各个横截面轮廓以及所有轮廓的平均值的结果表明,摄影测量优于 NeRF,后者通常会产生更多噪声结果(图 9a-c)。例如,摄影测量的 RMSE 和 STD 估计平均值约为 0.09 mm 和 0.08 mm,而 NeRF 的该值大于 0.13 mm。

4.6. Cloud-to-Cloud Comparison

クラウド間の比較とは、参照データに対するデータセット内の対応する 3D サンプル間の相対ユークリッド距離を評価することを指します。さまざまな特性を持つさまざまなオブジェクト (図 3): Ignatius、Truck、Industrial、および Composite を検討します。これらは、テクスチャのない光沢のある金属表面を持つ、大小さまざまなオブジェクトです。各データセットについて、写真測量 (Colmap) と Instant-NGP を使用して 3D データが生成され、利用可能な GT に相互登録されました (図 10)。最後に、導出された指標を表 5 に示します。実行されるテストで使用される画像の数が常に同じであるとは限らないことに注意してください。実際、合成、Ignatius、およびトラックのデータセットでは、写真測量はすでに低コストで正確な結果を提供しています。画像の数が少ないため、画像を追加してもさらなる改善にはつながりません。一方、NeRF の場合は、画像の数が少ない (またはベースラインのアップスケーリング) と良好な結果が得られないため、利用可能なすべての画像が使用されました (セクション 4.2 も参照)。

ここに画像の説明を挿入します
図 10. グラウンド トゥルース データと比較した、Instant-NGP と写真測量手法の色分けされたクラウド間の比較 [単位: mm]

ここに画像の説明を挿入します
表 5. Instant-NGP と写真測量手法のクラウド間比較指標 [単位: mm]。工業用オブジェクトを除くすべてのオブジェクトについて、達成される精度はすでに NeRF よりも優れているため、写真測量では使用する画像の数が少なくなります。

提示された結果から、金属および反射率の高い物体 (産業用データセット) では NeRF の方が写真測量よりも優れたパフォーマンスを発揮しますが、他のシーンでは写真測量の方がより正確な結果が得られることがわかります。
他の 2 つの半透明オブジェクトと透明オブジェクト、Bottle_1 と Bottle_2 について考えてみましょう (図 3)。ガラス オブジェクトは入射光を乱反射せず、写真測量 3D 再構成タスク用の独自のテクスチャを持ちません。それらの外観は、オブジェクトの形状、周囲の背景、照明条件によって異なります。したがって、この場合、写真測量は簡単に失敗したり、非常にノイズの多い結果が生成されたりする可能性があります。一方、NeRF は、Mildenhall らによって主張されています。NeRF モデルのビュー依存性により、[16] は透明度関連のジオメトリを正しく生成する方法を学習できます。両方のオブジェクトについて、写真測量および NeRF ベースの 3D 結果が GT データに同時登録され、メトリクスが計算されました (図 11 および表 6)。結果は、NeRF が透明なオブジェクトの写真測量よりも優れていることを示しています。たとえば、Bottle_1 の写真測量の推定 RMSE、STD、および MAE は、それぞれ 6.5 mm、7.1 mm、および 7.5 mm です。比較すると、NeRF 値はそれぞれ 1.3 mm、1.7 mm、2.1 mm と大幅に減少しました。

ここに画像の説明を挿入します
図 11. 2 つの透明なオブジェクト上の Instant-NGP と写真測量 o-cloud の比較 [単位: mm]。

ここに画像の説明を挿入します
表 6 透明物体の雲間の比較統計値 [単位: mm]。

4.7. 正確さと完全性

写真測量と NeRF の精度と完全性を比較するために、Ignatius、Industrial、Bottle_1 の 3 つの異なるデータセットが使用されます。NeRF (インスタント NGP) と写真測量の場合、両方のメトリクスは利用可能なグラウンド トゥルース データに基づいて計算されます。図 12 に示す結果から、次の洞察が明らかになります:(i) Ignatius データセットの場合、写真測量は NeRF よりも高い精度と完全性を示しました; (ii) Industrial および Bottle_1 データセットの場合、NeRF はわずかに優れた結果を示しました。これらの発見はセクション 4.6 を定量的に裏付けており、NeRF ベースの手法は、非協働表面を持つオブジェクト、特に透明または光沢のあるオブジェクトを扱う場合に良好に機能します。対照的に、写真測量は、そのような表面の複雑な詳細を捕捉する際に課題に直面しているため、NeRF がより適切または補完的なオプションとなります。

ここに画像の説明を挿入します
図 12. 3 つの異なる物体に対する NeRF と写真測量の精度と完全性。

5。結論

この論文では、Neural Radiation Field (NeRF) 法を使用した画像ベースの 3D 再構成の包括的な分析について説明します。従来の写真測量と比較して、定量的かつ視覚的な結果を報告することで、さまざまな種類の表面やシーンを操作する場合の利点と欠点を理解できます。この研究は、NeRF で生成された 3D データの長所と短所を客観的に評価し、現実のさまざまなシナリオやアプリケーションへの適用可能性についての洞察を提供します。この研究では、テクスチャ付き、テクスチャなし、金属、半透明、透明のさまざまなオブジェクトを使用し、さまざまなスケールと画像セットを使用して画像化しました。ノイズ レベル、表面偏差、幾何学的精度、完全性など、生成された NeRF ベースの 3D データの品質を評価するために、さまざまな評価方法と指標が使用されます。

報告された結果は、テクスチャのない、金属的、反射率の高い、透明なオブジェクトなど、従来の写真測量法が失敗したり、ノイズの多い結果を生成したりする状況において、NeRF が写真測量法を上回るパフォーマンスを発揮することを示しています。対照的に、写真測量は、十分にテクスチャ化されたオブジェクトや部分的にテクスチャ化されたオブジェクトに対しては依然として優れたパフォーマンスを発揮します。これは、NeRF モデルのビュー依存性により、NeRF ベースの手法では反射率と透明度に依存するジオメトリを生成できるためです。

この研究は、さまざまな現実のシナリオ、特に表面が特に困難な遺産や産業のシナリオにおける NeRF の適用可能性についての貴重な洞察を提供します。さらに多くのデータセットが準備中であり、間もなくhttps://github.com/3DOM-FBK/NeRFBKで共有される予定です[103]。この研究の結果は、NeRF と写真測量の可能性と限界を浮き彫りにし、この分野における今後の研究の基礎を築きました。将来の研究では、NeRF と写真測量の組み合わせを探索して、困難なシーンにおける 3D 再構成の品質と効率を向上させる可能性があります。


投げ捨てる:

  1. 全体的な効率と効果の観点から見ると、instant-ngp は確かに非常に代表的なものです。ただし、再構築効果に関する限り、より高度な作業が最近公開され、sdfstudio (bakedsdf、neuralangelo など) に実装されていますが、効率はあまり高くなく、比較的時間がかかります。
  2. NeRF にはかなりの数の亜種があり、私の実験による観察によると、異なる方法の結果は依然としてかなり異なります。
  3. 大きなシーンの比較が見られなかったのが残念です。
  4. 比較プロセス全体と評価指標は古典的なものであり、学ぶ価値があります。
  5. 現在の最先端の方法との比較がないため、導き出された結論は参考用のみである可能性があります。

おすすめ

転載: blog.csdn.net/m0_50910915/article/details/131954972