2022 年のニューラル レンダリングの進歩を振り返る

ニューラル レンダリングの進歩を振り返る

出典: https://zhuanlan.zhihu.com/p/567654308

EuroGraphics の 2022 年レビュー論文「Advances in Neural Rendering」、2022 年 3 月、MPI、Google Research、ETH、MIT、Reality Labs Research、ミュンヘン工科大学、スタンフォード大学の著者が執筆。

フォトリアリスティックな画像とビデオの合成はコンピュータ グラフィックスの核心であり、数十年にわたって研究の焦点となってきました。従来、シーンの合成イメージは、特別に定義されたジオメトリやマテリアル プロパティの表現を入力として受け取るラスタライゼーションやレイ トレーシングなどのレンダリング アルゴリズムを使用して生成されます。これらの入力は集合的に、シーン表現と呼ばれる実際のシーンとレンダリングされたコンテンツを定義します(シーンは 1 つ以上のオブジェクトで構成されます)。シーン表現の例としては、三角形メッシュ (例: アーティストによって作成)、点群 (例: 深度センサーから)、ボリューム メッシュ (例: CT スキャンから)、または付随するテクスチャを備えた暗黙的な表面関数 (例: 切り捨てられた符号付き距離フィールド) があります。 )。微分可能なレンダリング損失を使用して観察からそのようなシーン表現を再構築することは、逆グラフィックスまたは逆レンダリングとして知られています。

ニューラル レンダリングは密接に関連しており、古典的なコンピューター グラフィックスと機械学習のアイデアを組み合わせて、現実世界の観察から画像を合成するアルゴリズムを作成します。ニューラル レンダリングは、フォトリアリスティックな画像とビデオ コンテンツを合成するという目標に向けた一歩です。近年、この分野では目覚ましい進歩が見られ、学習可能なコンポーネントをレンダリング パイプラインに挿入するためのさまざまなアプローチが実証されています。

ニューラル レンダリングの進歩に関するこの最新レポートは、古典的なレンダリング原理と学習された 3D シーン表現 (現在はニューラル シーン表現と呼ばれることが多い)を組み合わせる方法に焦点を当てています。これらのアプローチの主な利点は、設計上 3D の一貫性があり、キャプチャされたシーンの新しい視点の合成などのアプリケーションが可能になることです。静的シーンを処理する方法に加えて、非剛体変形可能オブジェクトをモデリングするためのニューラル シーン表現、およびシーンの編集と合成も紹介されています。これらのメソッドのほとんどはシーン固有ですが、ターゲット クラス全体で一般化するためのテクニックも説明されており、生成タスクに使用できます。これらの最先端の手法をレビューすることに加えて、使用される基本的な概念と定義の概要も説明します。最後に、公共の課題と社会的影響について説明します。


従来のコンピュータ グラフィックスでは、シーンの高品質で制御可能な画像を生成できますが、シーンのすべての物理パラメータ (カメラ パラメータ、照明、オブジェクトのマテリアルなど) を入力として提供する必要があります。実際のシーンの制御可能な画像を生成したい場合、特に目標がフォトリアリスティックな合成画像である場合、画像やビデオなどの既存の観察からこれらの物理的特性を推定すること、つまり逆レンダリングは非常に困難です。

対照的に、ニューラル レンダリングは、シーンのコンパクトな表現を可能にする急速に出現している分野であり、レンダリングはニューラル ネットワークによる既存の観察から学習できます。ニューラル レンダリングの主なアイデアは、古典的な (物理ベースの) コンピューター グラフィックスからの洞察と、ディープ ラーニングの最近の進歩を組み合わせることです。古典的なコンピュータ グラフィックスと同様に、ニューラル レンダリングの目標は、新しい視点の合成、再照明、シーンのワーピングと合成など、制御された方法でフォトリアリスティックな画像を生成することです。

この好例は、3D シーン表現のみを学習し、監視のためにコンピューター グラフィックスのレンダリング機能に依存することによって、モデリングとレンダリングのプロセスを分離しようとする最近のニューラル レンダリング技術です。たとえば、**Neural Radiative Fields (NeRF)** は、多層パーセプトロン (MLP) を使用して 3D シーンの放射フィールドと密度フィールドを近似します。この学習されたボリューム表現は、分析的に微分可能なレンダリング (つまり、ボリューム統合) を使用して、任意の仮想カメラからレンダリングできます。トレーニングでは、シーンが複数のカメラの視点から観察されると想定します。これらのトレーニングの観点から、推定された 3D シーンがレンダリングされ、レンダリングされた画像と観察された画像の差が最小限に抑えられ、ネットワークがこれらの観察に基づいてトレーニングされます。トレーニングが完了すると、ニューラル ネットワークによって近似された 3D シーンを新しい視点からレンダリングできるようになり、制御可能な構成が可能になります。レンダリング関数を学習するためにニューラル ネットワークを使用するアプローチとは対照的に、NeRF ではコンピュータ グラフィックスからの知識がより明示的に使用され、(物理的な) 誘導バイアスにより、新しいビューがより一般化されます。つまり、シーンの密度と半径の中間 3D 構造が表現されます。その結果、NeRF は 3D 空間で物理的に意味のある色と密度の値を学習し、物理的にインスピレーションを得たレイキャスティングとボリューム統合を新しいビューに継続的にレンダリングできます。

得られた結果の品質と手法の単純さにより、この分野での「爆発」が起こりました。適用性の向上、制御性の向上、動的に変化するシナリオの捕捉、トレーニングと推論時間の向上など、いくつかの進歩が見られました。ニューラル レンダリングは非常に急速に成長しており、さまざまな側面で大きな進歩が見られるため、最近の手法とその応用分野を分類して開発の概要を説明します。

このレポートでは、古典的なレンダリングと学習可能な 3D 表現を組み合わせた高度なニューラル レンダリング手法に焦点を当てます (図を参照)。

基礎となるニューラル 3D 表現は設計により 3D 一貫性があり、さまざまなシーン パラメーターを制御できます。このレポートでは、さまざまなシーン表現の包括的な概要を示し、古典的なレンダリング パイプラインおよび機械学習から借用したコンポーネントの理論的根拠を詳しく説明します。ニューラル放射フィールドとボリュームを使用したレンダリング方法にさらに注意が払われます。ただし、主に 2D 画面空間で推論するニューラル レンダリング手法はここでは無視されます。また、レイ トレーシング イメージのニューラル スーパーサンプリングおよびノイズ除去手法も無視されます。


何十年にもわたって、コンピュータ グラフィックス コミュニティは、点群、暗黙的およびパラメトリックなサーフェス、メッシュ、ボリュームなどのさまざまな表現を研究してきました (図を参照)。

これらの表現はコンピューター グラフィックスの分野では明確に定義されていますが、現在のニューラル レンダリングの文献では、特に暗黙的および明示的なサーフェスおよびボリューム表現に関しては、しばしば混乱が生じます。多くの場合、ボリューム表現はサーフェスを表現できますが、その逆はできません。ボリュームは、密度、不透明度、占有率などのストレージ ボリュームの特性を表しますが、色や明るさなどの多次元の特徴も格納できます。ボリューム表現とは異なり、サーフェス表現にはターゲット サーフェスのプロパティが保存されます。煙などのバルク物質のシミュレーションには使用できません (大まかな近似として使用する場合を除く)。サーフェス表現とボリューム表現には、連続表現と離散表現の両方があります (上の図を参照)。連続表現は、分析的な勾配を提供できるため、ニューラル レンダリング手法にとって特に興味深いものです。

3D シーンを 2D イメージ プレーンにレンダリングするには、レイ キャスティングとラスタライゼーションという2 つの一般的な方法があります。以下の図を参照してください。シーンのレンダリング イメージは、シーン内にカメラを定義することによって計算することもできます。ほとんどの方法では、すべてのカメラ光線が空間内の 1 点 (焦点) を通過するピンホール カメラが使用されます。特定のカメラの場合、カメラの原点からの光線をシーンにキャストして、レンダリング イメージを計算できます。

現在のカメラ画像を正しくモデル化するには、レンズを考慮する必要があります。画像形成時にモデリングする必要がある被写界深度やモーションブラーなどの効果はもちろん、投影機能にはディストーション効果も追加されています。残念ながら、さまざまなレンズ効果をすべて捉える単一の単純なモデルはありません。OpenCV によって提供されるようなキャリブレーション パッケージは通常、最大 12 個の歪みパラメータを持つモデルを実装します。これらは 5 次の多項式によってモデル化されているため、単純に反転することはできません (これはポイントキャストではなくレイキャストに必要です)。最新のカメラ キャリブレーション方法では、より多くのパラメーターが使用され、より高い精度が達成され、可逆的かつ微分可能です。

直接ラスター化では主にメッシュを使用します。メッシュは頂点 v と面 f のセットによって記述され、3 つまたは 4 つの頂点を接続してサーフェスを定義します。基本的な洞察は、3D での幾何学的操作は頂点のみを処理できるということです。たとえば、世界のすべての点を同じ外部行列 E を使用してカメラ座標系に変換します。変換後、視錐台の外側にある点や法線方向が間違っている点を間引くことができ、次のステップで処理する点面の数を減らすことができます。画像座標に投影された点の位置も、内部参照行列 K を通じて簡単に見つけることができます。表面情報を使用して表面プリミティブの深さを補間することができ、最上部の表面を Z バッファに保存できます。ただし、一部の効果 (照明効果、影、反射など) は、この方法でキャプチャするのが困難です。「ソフト」ラスター化技術によって細分化できます。


以下では、ニューラル レンダリングとニューラル シーン表現に対するさまざまなアプローチをアプリケーション別に説明します。静的シーンの新しい視点合成、オブジェクトとシーンへの一般化、非静的シーンの視点合成、シーンの編集と合成、再照明とマテリアルの編集などです。

1 新しいビューの合成

新しいビューの合成は、一連の画像とそのカメラ ポーズを入力として与えて、新しいカメラ位置から特定のシーンをレンダリングすることです。

ビューの合成方法は、いくつかの重要な基準に基づいて評価されます。当然のことながら、出力画像は可能な限りリアルである必要があります。ただし、これがすべてではありません。おそらくより重要なのは、マルチビュー 3D の一貫性です。レンダリングされたビデオ シーケンスは、カメラがシーン内を移動するときにちらつきや歪みがなく、一貫した 3D コンテンツを描写しているように見える必要があります。ニューラル レンダリングの分野が成熟するにつれて、ほとんどのアプローチは固定 3D 表現の生成に移行し、その出力を新しい 2D ビューのレンダリングに使用できます。このアプローチは、画像ジェネレーターまたはレンダラーとしてブラックボックス 2D 畳み込みネットワークに過度に依存していた場合、これまで達成することが困難であったレベルのマルチビュー一貫性を自動的に提供します。

ボクセル グリッドの解像度とメモリの制限を解決するために、シーン表現ネットワーク (SRN) は、球体追跡ベースのニューラル レンダラーと多層パーセプトロン (MLP) をシーン表現として組み合わせ、シーンの一般化に焦点を当てて実装します。レンズの再構築が少なくなります。微分可能ボリューム レンダリング (DVR) も同様にサーフェス レンダリング手法を利用しますが、単一シーンのオーバーフィッティングにより、より複雑な外観とジオメトリの再構築が可能になることを示しています。

Neural Radiant Fields (NeRF) は、MLP ベースのシーン表現を単一シーンのフォトリアリスティックな新しいビュー合成に適用する画期的な技術です。以下の図を参照してください。

サーフェスベースの方法とは異なり、NeRF はボリューム レンダリング モデルを直接適用して MLP からの画像を合成し、入力位置と視線方向から出力ボリューム密度と色にマッピングします。入力画像のピクセルレベルのレンダリング損失に基づいて、MLP 重みの異なるセットが最適化され、それぞれの新しい入力シーンが表現されます。

MLP ベースのシーン表現は、最適化中のシーンの効率的な微分可能な圧縮により、個別の 3D ボリュームよりも高い解像度を実現します。たとえば、解像度 800 × 800 の出力イメージの NeRF 表現をレンダリングする場合、必要なネットワークの重みはわずか 5 MB です。比較すると、800^3 RGBA ボクセル グリッドは 2 GB 近くのストレージを消費します。

この機能は、NeRF が MLP を通過する前に入力空間座標に位置エンコーディングを適用するという事実に起因すると考えられます。ニューラル ネットワークを使用して暗黙的なサーフェスや暗黙的なボリュームを表現する以前の研究と比較して、NeRF の MLP は、(ネットワークの重みの数に関して) 容量を増やすことなく、はるかに高い周波数の信号を表現できます。

離散 3D メッシュから MLP ベースの表現に切り替える主な欠点は、レンダリング速度です。空間内の単一点の色と密度を計算するには、単純なデータ構造を直接クエリするのではなく、ニューラル ネットワーク全体 (数十万の浮動小数点演算) を評価する必要があります。標準の深層学習フレームワークに NeRF を実装して 1 つの高解像度画像をレンダリングするには、一般的なデスクトップ GPU で数十秒かかります。

Neural Sparse Voxel Fields や KiloNeRF など、MLP 表現に基づいて高速化されたボリューム レンダリング方法がいくつかあります。NeRF MLP によって学習されたさまざまな量を疎な 3D グリッド上にキャッシュし、トレーニング完了後のリアルタイム レンダリングを可能にする、SNeRG、FastNeRF、PlenOctrees、NeX-MPI などのメソッドもいくつかあります。レンダリングを高速化するもう 1 つの方法は、MLP 表現自体をトレーニングし、AutoInt やライト フィールド ネットワークなどの光線に沿った体積積分の一部またはすべてを効率的に事前計算することです。

多くの新しいメソッドは、グリッド、スパース グリッド、ツリー、ハッシュなどの古典的なデータ構造を使用して、レンダリングを高速化し、トレーニング時間を短縮します。インスタント ニューラル グラフィックス プリミティブは、明示的なグリッド構造ではなく、多重解像度のハッシュ コーディングを活用し、数秒で NeRF トレーニングを可能にします。

その他の改善には、教師ありデータ (深度値など)、最適化されたカメラポーズ、ハイブリッド表面/ボリューム表現、堅牢性と品質の向上 (NeRF++、MipNeRF)、NeRF と標準の計算イメージング手法の組み合わせ (Deblurr-NeRF、NeRF in the Dark、 HDR-NeRFやNeRF-SRなど)、大規模シーンやテキストからのNeRF(Dream NeRFやCLIP NeRF)など。


2 ターゲットとシーンの一般化

多くの作業には、ボクセル ベース、グリッド ベース、または非 3D 構造のニューラル シーン表現に基づく複数のシーンとターゲット クラスの一般化が含まれます。ここでは主に、MLP ベースのシーン表現の一般化における最新の進歩について説明します。その中で、単一のシーンで単一の MLP をオーバーフィッティングする方法は、大量の画像観察データを必要とし、シーン表現における一般化の中心的な目標は、入力ビューがほとんどないか、場合によっては単一のみである場合に新しいビューを合成することです。概要のメソッドは次のように分類されます: ローカルまたはグローバル条件を利用するかどうか、非従来型の生成モデルとして使用できるかどうか、どの 3D 表現が利用されるか (ボリューム、SDF、または占有率)、どのようなトレーニング データが必要か、そして推論がどのように実行されるか(エンコードデコーダ、自動デコーダフレームワーク、または勾配ベースのメタ学習などを介して)。

さまざまなシナリオを一般化するには、2 つの重要な方法があります。あるクラスの作業では、イメージベース レンダリング (IBR) に似たアプローチに従い、複数の入力ビューをワープ (ワープ) およびブレンド (ブレンド) して新しい視点を合成します。MLP ベースのシーン表現のコンテキストでは、これは通常、ローカル コンディショニングによって実現されます。この場合、シーン表現 MLP の座標入力は、ボクセル グリッドなどの離散シーン表現に格納されているローカル変動特徴ベクトルと連結されます。

PiFU は、画像エンコーダを使用して入力画像の特徴を計算し、3D 座標を画像平面に投影することでこれらの特徴の 3D MLP を調整します。ただし、PiFU には微分可能なレンダラーがないため、グラウンドトゥルース 3D 監視が必要です。PixelNeRF および Pixel-Aligned Avatars は、ボリューム レンダリング フレームワークでこのアプローチを活用しており、これらの機能が複数のビューにわたって集約され、MLP が色フィールドと密度フィールドを生成し、NeRF 方式でレンダリングされます。複数のシーンでトレーニングすると、事前のシーンを再構築用に学習し、複数のビューから高い忠実度でシーンを再構築できます。

PixelNeRF は特定のオブジェクト クラスでトレーニングすることもでき、1 つまたは複数のポーズ画像からオブジェクト インスタンスの 3D 再構築を可能にします。GRF は、追加の注意モジュールを備えた同様のフレームワークを使用して、異なるサンプリングされた入力画像内の 3D ポイントの可視性を考慮します。ステレオ ラディアンス フィールドも同様に、複数のコンテキスト ビューから特徴を抽出しますが、コンテキスト イメージの特徴のペア間の学習された対応一致を利用して、単純な平均集計ではなく、コンテキスト イメージ全体の特徴を集計します。最後に、IBRNet と NeR-Former は、可視性を推測するためにレイ サンプリングにトランスフォーマー ネットワークを導入しています。LOLNeRF は、単眼監視のみでポートレート画像の一般化された NeRF モデルを学習します。ジェネレーター ネットワークは、インスタンス固有の潜在ベクトルに基づいて共同でトレーニングされます。GeoNeRF は、連結されたコスト ボディのセットを構築し、トランスフォーマーを使用してジオメトリと外観を推測します。

画像ベースの方法に代わる方法は、画像や他の個別の空間データ構造に依存するのではなく、シーンの全体的でグローバルな表現を学習することを目的としています。一連の観測が与えられると、その実装はシーン表現 MLP の一連の重みを推論することによってシーン全体を記述します。一部の作品では、単一の低次元潜在コードでシーンをエンコードし、このコードを使用してシーン表現 MLP を条件付けることによってこれを行います。

シーン表現ネットワーク (SRN) は、ハイパーネットワークを通じて低次元の潜在コードを MLP シーン表現のパラメーターにマッピングし、レイマーチングを通じて結果の 3D MLP をレンダリングします。ポーズ ビューを指定してインスタンスを再構築するために、SRN はレンダリングが入力ビューと一致する潜在コードを最適化します。微分可能ボリューム レンダリングも同様にサーフェス レンダリングを使用し、その勾配を分析的に計算し、CNN エンコーダーを介して推論を実行します。ライト フィールド ネットワークは、低次元の潜在コードを活用して 3D シーンの 4D ライト フィールドを直接パラメータ化し、単一評価のレンダリングを可能にします。

NeRF VAE は、NeRF を変分オート エンコーダ (VAE) に埋め込み、同様に単一の潜在コードでシーン全体を表現しますが、サンプリングを可能にする生成モデルを学習します。Sharf は、クラス内のターゲットの形状をボクセル化する生成モデルを採用します。次に、より高解像度の神経放射フィールドが調整され、ボリューム レンダリングを使用して新しいビュー合成の忠実度が高まります。

Fig-NeRF は、同じ潜在変数を条件とした変形を受ける潜在コードを条件としたテンプレート形状としてターゲット カテゴリをモデル化します。これにより、ネットワークは特定の形状の変化をより直感的な変形として解釈できるようになります。Fig-NeRF は、実際のオブジェクトのスキャンからオブジェクト カテゴリを取得することに焦点を当てており、学習された背景モデルを使用して背景からオブジェクトをセグメント化することも提案しています。代替案は、シーンを低次元の潜在コードとして表現し、勾配ベースのメタ学習を通じて、いくつかの最適化ステップで MLP シーン表現の重みを迅速に最適化することです。これを使用して、神経放射場を迅速に再構築できます。トレーニング時に、事前トレーニングされたモデルは、標準の神経放射フィールド トレーニングよりも速く収束し、必要なビューが少なくなります。

Portrait-NeRF は、人物の単一の正面画像から NeRF を復元するメタ学習アプローチを提案しています。被写体間のポーズの違いを考慮して、3D ポートレートはポーズに依存しない標準的な基準フレームでモデル化され、3D キーポイントで各被写体をワープします。シーンの NeRF は、勾配ベースのメタ学習と画像特徴のローカル調整を使用して迅速に復元されます。

3D シーンを探す一連の観察から低次元の潜在コードを推測する代わりに、同様のアプローチを使用して無条件生成モデルを学習できます。ここでは、ニューラル レンダラーを備えた 3D シーン表現が敵対的生成ネットワーク (GAN) に埋め込まれています。一連の観察から低次元の潜在コードを推測する代わりに、潜在コードの分布が定義されます。順方向パスでは、この分布から潜在変数がサンプリングされ、MLP シーン表現が調整され、ニューラル レンダラーによって画像がレンダリングされます。この画像は敵対的損失で使用できます。2D 画像のみが与えられると、3D シーンの形状と外観の 3D 生成モデルを学習できます。ボクセル グリッドを介したパラメトリック 3D シーン表現のフレームワーク。GRAF最初に条件付き NeRF を活用し、フォトリアリズムの大幅な向上を実現します。Pi-GAN は、SIREN (「周期的活性化関数を備えた暗黙的なニューラル表現」) 構造に基づく FiLM (「フィルム: 一般的な調整層による視覚的推論」) 調整スキームを通じてアーキテクチャをさらに改善します。

最近のいくつかのアプローチでは、これらの生成モデルの品質と効率を向上させるためのさまざまな方向性が模索されています。計算コストとジオメトリ再構築の品質は、サーフェス表現によって改善できます。ディスクリミネーター用のマルチビュー画像の合成に加えて、ShadeGAN は明示的なシェーディング ステップを使用して、高品質のジオメトリ再構築のためにさまざまな照明条件下で出力画像レンダリングも生成します。画像ベースの CNN ネットワークを使用して 3D ジェネレーターの出力を最適化する、ハイブリッド技術に関して多くのアプローチが検討されています。画像空間ネットワークは、より高い解像度とより高い忠実度の出力でトレーニングできます。いくつかのアプローチでは、生成モデルを個別のジオメトリ空間とテクスチャ空間に分解することを検討します。ここで、画像空間でテクスチャを学習するメソッドもあれば、3D でジオメトリとテクスチャを同時に学習するメソッドもあります。

これらの方法では、3D シーンごとに複数の観察を必要とせず、カメラ ポーズのグラウンド トゥルースも必要としませんが、それでもカメラ ポーズの分布に関する知識が必要です (ポートレート画像の場合、カメラ ポーズの分布から妥当なポートレート アングルが得られる必要があります)。CAMPARI は、カメラの姿勢分布と生成モデルを共同で学習することで、この制約に対処します。GIRAFFE は、複数の前景 (オブジェクト) NeRF と単一の背景 NeRF の組み合わせとしてシーンをパラメータ化し、複数のオブジェクトで構成されるシーン生成モデルを学習することを提案しています。潜在コードは NeRF ごとに個別にサンプリングされ、ボリューム レンダラによって妥当な 2D 画像に合成されます。

3 ダイナミックなシーンの拡大

生のニューラル放射輝度フィールドは静的なシーンやオブジェクトを表現するために使用されますが、動的に変化するコンテンツをさらに処理するメソッドもあります。これらの方法は、動的に変化するシーンの新しい視点を未修正の再生に合成することを可能にする時間変化表現方法 (例: バレットタイム効果の生成)、または変形状態を制御する技術として分類できます新たな視点で総合編集されています。図に示すように、変形された神経放射場は暗黙的または明示的に実装できます。左側は暗黙的に実装され、変形 (時間 t) にわたって放射場 v を変調します。右側は明示的に実装されており、別の変形可能な MLP を使用して空間をワープし、変形空間 (黒色) から静的標準空間 (黄色) へのオフセット (青色の矢印) を回帰します。この変形により、直線の光線が標準の放射線野に曲げられます。

  • 時間変化する表現

時間変化する NeRF により、新しい視点でビデオを再生できます。制御を放棄するため、これらのメソッドは特定のモーション モデルに依存せず、一般的なオブジェクトやシーンを処理できます。

一方、一部の研究では、非剛体シーン向けの NeRF のいくつかの拡張を提案しています。まず、変形を暗黙的にシミュレートする方法について説明します。元の NeRF は静的であり、3D 空間内の点のみを入力として受け取りますが、簡単な方法で時間変化するように拡張できます。さらに、体積表現は変形状態を表すベクトルに依存できます。現在の方法では、この調整には時間入力 (おそらく位置的にエンコードされた) または各タイム ステップで自動的にデコードされた潜在コードが使用されます。

オブジェクトのタイプや 3D 形状についての事前知識なしに非剛体シーンを処理することは不適切な問題であり、そのような方法では、追加のデータ パターンに関する条件付き学習だけでなく、さまざまな幾何学的正則化手法が使用されます。反射と不透明度の時間的一貫性を促進するために、隣接するタイム ステップ間のシーンの時間的フロー マップを学習するためのいくつかのアプローチがあります。これは小さな時間的近傍に限定されているため、主に新しいビューの歪みのない合成が行われます。時空。

シーン フロー マップは、シーンを他のタイム ステップから現在のタイム ステップにワープする再構成損失を使用してトレーニングできます。これにより、推定オプティカル フローとシーン フローの 2D 投影、または逆投影の 3D トラッキング キーポイント間の一貫性が促進されます。シーン フローは、空間的または時間的な滑らかさ、あるいは前後方向のサイクルの一貫性の促進など、追加の正則化損失によって制約されることがよくあります。前述の他の方法とは異なり、**Neural Radiance FLow (NeRFlow)** は微小な変位を伴う変形をモデル化するため、オフセット推定値を取得するには Neural ODE との統合が必要です。

さらに、一部の方法では、推定深度マップを使用してジオメトリ推定を監視します。この正則化の制限は、再構成の精度が単眼の奥行き推定方法の精度に依存することです。したがって、単眼奥行き推定法のアーティファクトが新しいビューで見られる可能性があります。

最後に、静的な背景は多くの場合個別に処理され、時間的な単眼入力に対するマルチビュー キューが可能になります。この目的を達成するために、一部の方法では、変形を条件としない 2 番目の静的ボリュームを推定したり、静的シーンのコンテンツを制約するためにソフト正則化損失を導入したりします。

NeRFlow は、事前トレーニングされたシーンのノイズ除去と超解像度ビューに使用できます。NeRFlow の制限には、静的な背景の維持、複雑なシーン (セグメント化されていない剛体変形と動き) の処理、入力軌道とは大幅に異なるカメラ軌道下での新しいビューのレンダリングの難しさなどが含まれます。

これまでのところ、新しい方法では、変形に依存するシーン表現を使用して変形を暗黙的にモデル化しています。これにより、変形の制御が煩雑かつ困難になります。変形をジオメトリや外観から切り離す作業もあります。変形を静的な標準シーン上の独立した関数に分解することは、制御可能性への重要なステップです。変形は、直線レイを変形空間にキャストし、標準シーンにワープすることによって実装されます。通常は、座標ベースの MLP を使用して直線レイのポイント オフセットを回帰します。これは、空間の歪みやシーンの流れと考えることができます。

暗黙的モデリングとは対照的に、これらの方法は、静的な標準シーンの構築を通じて、時間の経過とともに幾何学的情報と外観情報を共有するため、ドリフトしない厳密な対応関係が提供されます。この厳しい制約のため、陰的解法とは異なり、陽的変形を伴うメソッドはトポロジ変化を処理できず、陰的解法よりもモーションが大幅に小さいシーンでのみ結果を示します。

D-NeRF は、正則化を行わずにレイベンディング MLP を使用して、仮想カメラを通して見た、背景からセグメント化された単一または複数の合成オブジェクトの変形をシミュレートします。これは、事前に定義されたマルチビュー画像のセットが与えられた場合、トレーニング中の監視用に 1 つの単一ビューのみが選択されることを前提としています。したがって、D-NeRF は、多視点教師あり技術と真の単眼教師あり手法との間の中間ステップとみなすことができます。

いくつかの作品では、移動する単眼カメラによって観察された実際のシーンの結果を実証しています。Deformable NeRF の中心となるアプリケーションは、自由視点のセルフィーである Nerfies の構築です。Deformable NeRF は、入力ビューごとに自動的にデコードされた潜在コードを使用して、変形と外観を調整します。曲げ光線は可能な限り剛体項 (弾性エネルギー項とも呼ばれる) で正規化され、区分的に剛体なシーン構成からの逸脱にペナルティを与えます。

その結果、Deformable NeRF は、関節のあるシーン (テニス ラケットを持つ手など) や人間の頭が関与するシーン (胴体に対して頭が動くシーン) でうまく機能します。それにもかかわらず、正則化が柔らかいため、小さな非剛体変形は (笑顔など) 適切に処理されます。この研究のもう 1 つの重要な革新は、粗から微細へのスキームです。これにより、低周波数成分を最初に学習できるようになり、高周波数の詳細への過剰適合による極小値が回​​避されます。

HyperNeRF はDeformable NeRF の拡張であり、単一の標準フレームワークの代わりに標準ハイパースペースを使用します。これにより、口の開閉などの位相変化のあるシーンを扱うことが可能になります。HyperNeRF では、Deformable NeRF のベンディング ネットワーク (MLP) が、周囲のスライス サーフェス ネットワーク (MLP) によって拡張されます。これにより、変形可能な正準シーンが間接的に調整され、入力 RGB ビューごとに正準部分空間が選択されます。したがって、これは明示的変形モデリングと暗黙的変形モデリングを組み合わせたハイブリッド モデルであり、トポロジ変化を処理するために厳密な対応を犠牲にすることができます。

ノンリジッド NeRF (NR NeRF) は、シーン正準ボリューム、シーン剛性マーカー (MLP)、およびフレーム レイ ベンディング オペレーター (MLP) を使用して、時変するシーンの外観をモデル化します。NR NeRF は、小さな非剛体変形やモーションを含むシーンを処理するために、深度マップやシーン フローなどの追加の監視キューが必要ないことを示しています。さらに、観察された変形は、教師付き単眼入力ビューに対してオクルージョンされた領域を安定させるボリューム保存制約を課す発散オペレータによって正規化されます。この点では、区分的剛体変形からの逸脱にペナルティを与える Nerfies の弾性レギュラライザーと同様の特性を持っています。この正則化により、新しいビューのカメラ軌道が入力カメラ軌道とは大きく異なります。制御性は依然として厳しく制限されていますが、NR-NeRF は、モーション増幅や動的なシーン コンテンツの削除など、学習された変形フィールドに対するいくつかの簡単な編集を実証しています。

他の方法は、単眼RGB入力ビデオの場合に限定されず、他の入力の存在を考慮します。

Time-of-Flight Radiance Fields (TöRF) 手法は、データ駆動型の事前知識を置き換えて、深度センサーからの深度マップを使用して動的コンテンツを再構築します。大多数のコンピューター ビジョン作業とは異なり、TöRF は生の ToF センサー測定値 (いわゆるフェーザー) を使用します。これは、反射の弱い領域や最新の深度センサーのその他の制限 (動作深度範囲の制限など) を扱うときに利点をもたらします。NeRF 学習では、測定されたシーン深度を統合することで入力ビューの数の要件が軽減され、結果として鮮明で詳細なモデルが得られます。深度キューは、NSFF および時空間神経放射フィールドよりも高い精度を提供します。

Neural 3D Video Synthesis は、マルチビュー RGB を使用して変形を設定し、暗黙的にモデル化します。この方法では、まずキーフレームでトレーニングし、時間的な滑らかさを利用します。また、カメラが静止したままになるように設定し、シーンのコンテンツはほとんど静止し、トレーニングのために偏った方法で光をサンプリングします。小さな動的コンテンツであっても、結果は鮮明です。

  • 変形状態を制御する

神経放射場の変形を制御するために、このような方法では、クラス固有の運動モデルを変形状態の基本表現として使用します(たとえば、人間の顔の変形モデルや人体の骨格の変形マップ)。

NeRFace は、変形可能なモデルを使用して神経放射場を暗黙的に制御する最初の方法です。彼らは、フェイス トラッカーを使用して、トレーニング ビュー (単眼ビデオ) で顔ブレンド形状パラメータとカメラ ポーズを再構築します。MLP は、混合形状パラメーターと学習可能なフレームごとの潜在コードを条件として使用して、これらのビューでトレーニングされます。さらに、既知の静的な背景を想定しているため、放射線フィールドには顔に関する情報のみが保存されます。潜在コードは、追跡エラーだけでなく、失われた追跡情報 (つまり、人の肩など) を補償するために使用されます。トレーニング後は、ブレンド シェイプ パラメータを介して放射線フィールドを制御できるため、再現や表現の編集が可能になります。

NeRFace からインスピレーションを得たオーディオ駆動型神経放射場 ( AD-NeRF )では、表現係数の代わりに、Deep-Speech によって抽出されたオーディオ特徴が、放射場表現 MLP の条件を提供する特徴にマッピングされます。表情はオーディオ信号を介して暗黙的に制御されますが、頭の硬いポーズは明示的に制御されます。人物のポートレートビューを合成するために、彼らは 2 つの別々の放射線フィールド (1 つは頭用、もう 1 つは胴体用) を使用しました。

「IM アバター」は、スキン フィールドに基づいて NeRFace を拡張します。これは、新しい表情パラメータとポーズ パラメータを指定して標準 NeRF ボリュームを変形するために使用されます。

これらの主題固有のトレーニング方法に加えて、Head-NeRFMoFaNeRF は、さまざまなビュー、表情、照明の下で顔を表現するための一般化されたモデルを提案しています。NeRFace と同様に、キャラクターの形状、表現、アルベド、照明などの追加パラメーターを制御することで NeRF MLP を調整します。どちらの方法でも、条件付き NeRF MLP に基づいたボリューム レンダリングの大まかな結果を改善するには、洗練されたネットワーク (2D ネットワーク) が必要です。

上記の方法はポートレートのシナリオでは有望な結果を示しますが、高度に非剛体な変形、特に単一のビューからキャプチャされた関節のある人間の動きには適していません。したがって、人間のスケルトンの埋め込みを明示的に利用する必要があります。**Neural Articulated Radiance Field (NARF)** は、注釈付きの画像をポーズすることによってトレーニングされます。多関節ターゲットは、そのローカル座標系とその上部にあるグローバルな形状変化を備えた複数の剛体ターゲット部分に分解されます。Converged NARF は、ポーズの操作、深度マップの推定、身体部分のセグメンテーションの実行により、新しいビューをレンダリングします。

NARF と比較して、A-NeRF は自己教師ありの方法で単眼映像からアクター固有の体性神経体モデルを学習します。この方法では、動的 NeRF ボリュームの明示的な制御可能性と関節化された人間の骨格埋め込みを組み合わせて、姿勢フィールドと放射線フィールドを合成的かつ分析的に再構築します。トレーニングが完了すると、放射フィールドは新しい視点の合成や動きの再局在化に使用できます。

A-NeRF が単眼ビデオでトレーニングされる場合、**Animatable Neural Radiance Fields (ANRF)** は、多視点ビデオから人体モデルを再構成するためのスケルトン駆動の方法です。その中心となるコンポーネントは、動きの新しい表現であるニューラル ハイブリッド ウェイト フィールドであり、3D 人間の骨格と組み合わせて変形フィールドを生成します。いくつかの汎用非剛体 NERF と同様に、ANRF は正準空間を維持し、マルチビュー入力と正準フレーム間の双方向の対応関係を推定します。

再構築されたアニメーション可能なマネキンは、任意の視点でのレンダリングや新しいポーズでの再レンダリングに使用できます。離散化された正規化された空間点の体積密度に対してマーチング キューブ アルゴリズムを実行することにより、ANRF からヒューマン メッシュを抽出することもできます。この方法は、学習された人体モデルの高い視覚的精度を達成しており、将来の研究では、観察された表面の複雑な非剛体変形 (衣服の緩みによって引き起こされるものなど) を処理できるように改良できる可能性があります。

ニューラル ボディ法により、まばらなマルチビュー ビデオ (たとえば、4 つの同時ビュー) から人間のパフォーマンスの新しいビュー合成が可能になります。彼らの方法は、形状認識事前分布としてパラメトリック人間形状モデル SMPL によって条件付けされています。異なるフレームから復元されたニューラル表現は、変形可能なグリッドに固定された同じ潜在コードのセットを持っていると仮定します。厳格な NeRF (タイムスタンプごとに適用) やニューラル ボリュームなどの一般的なベースラインは、より高密度の入力画像のセットを前提としています。したがって、複数の同時入力画像から動く人体の新しいビューをレンダリングすることは、Neural Body に匹敵することはできません。また、この方法は、外観の細部 (めったに着用しない服やユニークな衣服など) の 3D 再構築に関して、トレーニング 3D データに大きく依存する PIFuHD などの人間のメッシュ再構築技術と比較しても優れています。

Neural Body メソッドと同様に、Neural Actor (NA) とHVTR は SMPL モデルを使用して変形状態を表します。彼らはエージェントを悪用して、周囲の 3D 空間を明示的に標準ポーズに展開し、その中に NeRF が埋め込まれています。幾何学的で見かけの高忠実度の詳細の回復を改善するために、彼らは NeRF MLP への追加条件として SMPL 表面上に定義された追加の 2D テクスチャ マップを使用します。

H-NeRF は、ファントム条件を使用して時間 3D 再構成を行うもう 1 つの技術です。Neural Body と同様に、同期および調整されたカメラからのまばらなビデオ セットが必要です。対照的に、H-NeRF は、シンボリック距離フィールドを備えた構造化された暗黙的な人間モデルを使用し、よりクリーンなレンダリングとより完全なジオメトリを実現します。H-NeRF と同様に、DD-NeRF は符号付き距離フィールドの上に構築され、人体全体をレンダリングします。マルチビュー入力画像と再構成された SMPL ボリュームが与えられると、蓄積された回帰 SDF と放射輝度値がそのボリュームでレンダリングされます。

Human-NeRFも入力の複数のビューに基づいていますが、任意の視点レンダリングのために一般化された神経放射場を学習し、特定のアクターに合わせて微調整できます。HumanNeRF と呼ばれる別の研究では、スケルトンでリファインされた一般的な非剛体モーション フィールドを使用してモーション フィールドを駆動し、単眼入力データに基づいてアクター固有の神経放射フィールドをトレーニングする方法を示しています。

動的でアニメーション化可能な仮想ヒューマン モデルをリアルタイムでレンダリングするためのボリューム プリミティブの混合。主なアイデアは、位置と内容を動的に変更できる一連のボクセルを使用してシーンまたはオブジェクトをモデル化することです。これらのプリミティブは、パーツベースのモデルと同様に、シーンのコンポーネントをモデル化します。各ボクセルは、デコーダ ネットワークによって潜在コードから生成されたボクセルのグリッドです。この潜在コードはシーンの構成 (たとえば、人間の顔の場合は表情) を定義し、デコーダー ネットワークが生の位置とボクセル値 (RGB カラーと不透明度を含む) を生成するために使用します。

レンダリングするには、レイ マーチング手順を使用して、各ピクセルの対応する光線に沿って色と不透明度の値を蓄積します。他の動的 NeRF 手法と同様に、マルチビュー ビデオがトレーニング データとして使用されます。この方法では、髪や衣服などの難しいマテリアルでもリアルに見える、非常に高品質なリアルタイム レンダリングを作成できます。E-NeRF は、深度ガイド サンプリング テクノロジーに基づいた効率的な NeRF レンダリング ソリューションを実証します。これらは、マルチビュー画像を入力として使用して、動く人間と静止したオブジェクトのリアルタイム レンダリングを示します。

4 結合と編集

これまで説明した方法により、静的または動的シーンの体積表現を再構築し、複数の入力画像からそれらの新しいビューをレンダリングできる可能性があります。比較的単純な変更 (前景の削除など) を除いて、観察されたシーンを変更しないでください。最近のいくつかの方法では、再構成された 3D シーンの編集、つまりオブジェクトの再配置とアフィン変換、およびその構造と外観の変更も可能です。

条件付き NeRF は、ユーザーによる手動編集を通じて 2D 画像内で観察された剛体ターゲットの色と形状を変更できます (たとえば、一部のターゲット部分を削除できます)。この関数は、同じクラスの複数のターゲット インスタンスでトレーニングされた単一の NeRF から始まります。編集中、ネットワーク パラメーターは、新しく観察されたインスタンスの形状と色に一致するように調整されます。この作業の貢献の 1 つは、ユーザーの編集を正常に伝播して新しいビューを生成できる調整可能なパラメーターのサブセットを見つけることです。これにより、ネットワーク全体に対するコストのかかる変更が回避されます。CodeNeRF は、ターゲット クラスの形状とテクスチャのバリエーションを表します。PixelNeRFと同様に、CodeNeRF は目に見えないオブジェクトの新しいビューを合成できます。形状とテクスチャの 2 つの異なる埋め込みを学習します。テスト時には、単一の画像からカメラのポーズ、オブジェクトの 3D 形状、テクスチャを推定し、潜在コードを変更することで継続的に変更できます。Co-deNeRF は、既知のカメラのポーズを想定せずに、以前の単一画像 3D 再構成手法と同等のパフォーマンスを実現します。

**ニューラル シーン グラフ (NSG)** は、運転によって記録された単眼ビデオ (自車ビュー) から新しいビューを合成する方法です。この技術は、複数の独立して剛体で移動するオブジェクトの動的シーンを、個々のオブジェクトの変換と放射をエンコードする学習済みシーン グラフに分解します。したがって、各ターゲットと背景は異なるニューラル ネットワークによってエンコードされます。さらに、静的ノードのサンプリングは、効率、つまり 2.5D 表現のためにスライス (画像平面に平行) に制限されます。NSG では、入力フレームのコレクション上で対象となる各剛体移動オブジェクトの注釈付き追跡データが必要であり、各オブジェクト クラス (車やバスなど) は単一のボディを共有します。次に、ニューラル シーン グラフを使用して、同じ (つまり、観察された) シーンまたは編集された (つまり、オブジェクトを再配置した) シーンの新しいビューをレンダリングできます。NSG のアプリケーションには、背景と前景の分解、自動車の知覚のためのトレーニング データセットの強化、物体の検出とシーンの理解の向上などが含まれます。

もう 1 つの階層表現である空間的および時間的に一貫した NeRF ( ST-NeRF ) は、すべての独立して移動し関節化されたオブジェクトの境界ボックスに依存しており、その結果、複数のレイヤーが生成され、それらの位置、変形、および外観の情報が解きほぐされます。ST-NeRF への入力は、一定の間隔で半円状に配置されたカメラからの 16 個の同時ビデオと人間の背景セグメンテーション マスクのセットです。このメソッドの名前は、時空間一貫性の制約がそのアーキテクチャ、つまり時空間変形モジュールとゲージ空間としての NeRF モジュールに反映されていることを示唆しています。ST-NeRF は、時間の経過に伴う外観の進化を説明するタイムスタンプも受け入れます。新しいビューをレンダリングするときに、サンプリングされたレイが複数のシーン レイヤーにキャストされ、その結果、累積的な密度とカラーが生成されます。ST-NeRF は、出演者の再スケーリング、移動、複製または削除、時間の再スケジュールなどのニューラル シーン編集に使用できます。

5 強力なラ​​イティングとマテリアル編集

上記のアプリケーションは、単純化された吸収体/放出体レンダリング モデルに基づいており、シーンは光を遮断および放出する粒子体としてモデル化されます。このモデルは、新しい視点からシーンの画像をレンダリングするには十分ですが、異なる照明条件の下でシーンの画像をレンダリングすることはできません。再ライティングを有効にするには、さまざまなマテリアル プロパティを持つ粒子による光の散乱など、ボリュームを通る光の輸送をシミュレートするシーン表現が必要です。

Neural Reflectance Fields は、初めて再照明のために NeRF を拡張することを提案しています。NeRF とは異なり、神経反射フィールドはシーンを体積密度フィールドおよびビュー関連の放射輝度フィールドとして表現しませんが、シーンを体積密度フィールド、表面法線、および双方向反射率分布関数 (BRDF) として表現します。これにより、各 3D 位置で予測された表面法線と BRDF を使用して、その位置のパーティクルによって入射光がどれだけカメラに反射されるかを評価することで、任意の照明条件下でシーンをレンダリングできます。ただし、ニューラル ボリューム レンダリング モデルの場合、カメラ光線に沿った各点から各光源までの可視性を評価することは、大量の計算を要します。直接照明のみを考慮した場合でも、MLP は、その光線にレンダリングするための入射照明を計算するために、カメラ光線に沿ったすべての点とすべての光源の間の密にサンプリングされた位置で評価する必要があります。神経反射野は、カメラと同じ場所に配置された単一点光でのみ照明され、結果として得られるターゲット画像のトレーニングによりこの問題が回避されるため、MLP はカメラ光線に沿って評価するだけで済みます。

リライタブル モデルを復元する他の最近の研究では、単純に自己オクルージョンを無視し、任意の表面の上の上半球にあるすべての光源が完全に可視であると想定し、光源の可視性を計算する困難を回避しています。PhySGNeRD の2 つのメソッドは、光源が完全に可視であることを前提としており、環境光とシーンの BRDF を球面ガウスの混合として表現してレンダリングをさらに高速化します。これにより、入射光は BRDF の半球積分で乗算されます。閉じた形式で計算されます。完全な光の可視性を仮定することは、ほとんどの凸面オブジェクトに対して適切に機能しますが、この戦略では、影を落とすなど、光源を遮るシーン ジオメトリの影響をシミュレートすることはできません。

Neural Reflectance and Visibility Fields (NeRV) は、入力された 3D 位置と 2D 入射光の方向に対する光源の可視性を近似するように MLP をトレーニングします。各光線に沿った密にサンプリングされた点で MLP をクエリするのとは異なり、ここでは可視 MLP は入射光の方向ごとに 1 回クエリするだけで済みます。これにより、ニューラル ネットワークは、重大なシャドウイングやセルフ オクルージョン効果のある画像から再照明可能なシーンのモデルを復元できるようになります。

前に説明した方法とは異なり、NeRFactor は事前トレーニングされた NeRF モデルから開始します。次に、NeRFactor は、事前トレーニングされた NeRF のボリューム ジオメトリを表面モデルに単純化し、MLP 表現表面上の任意の点の光源の可視性と表面法線を最適化し、最後に復元する任意の表面点の周囲照明と BRDF 表現を最適化します。リライト可能なモデル。これにより、体積ジオメトリが 1 つのサーフェスに縮小され、任意の点での光源の可視性を 1 つの MLP クエリで計算できるため、イメージをレンダリングするときにより効率的な再照明可能なモデルが得られます。

NeROIC技術では、多段パイプラインを使用して、複数の制約のない照明環境下でキャプチャされたターゲット画像から再照明可能な NeRF のようなモデルを復元します。第 1 段階では、潜在的な外観の埋め込みを使用して照明による外観の変化を考慮しながらジオメトリを復元します。第 2 段階では、復元されたジオメトリから法線ベクトルを抽出します。第 3 段階では、BRDF プロパティと照明の球面調和関数表現を推定します。

オブジェクトの復元に焦点を当てた上記の再点灯可能な表現とは異なり、NeRF-OSR は、大きな建物や史跡の NeRF スタイルの再点灯可能なモデルを復元します。NeRF OSR はランバーシアン モデルを採用し、シーンを拡散アルベド、表面法線、照明と影の球面調和表現に分解し、これらを組み合わせて新しい周囲照明の下でシーンを再照明します。

上記の再照明可能なモデルは、シーン マテリアルを BRDF の連続 3D フィールドとして表します。これにより、復元された BRDF をレンダリング前に変更できるため、基本的なマテリアル編集が可能になります。NeuTex は、より直観的なマテリアル編集を実現するために、ボディの 3D 座標から 2D テクスチャ座標へのマッピングを学習するサーフェス パラメータ化ネットワークを導入しています。シーンの NeuTex モデルを復元した後、2D テクスチャを簡単に編集または置き換えることができます。

Ref-NeRF は、鏡面反射面を表現およびレンダリングする NeRF の能力の向上に焦点を当てています。Ref-NeRF は入射光を反射特性から分離できないため再照明には使用できませんが、放射光を物理的に意味のあるコンポーネント (拡散色と鏡面色、法線ベクトル、粗さ) として構築し、直感的なマテリアル編集を可能にします。

6つのライトフィールド

ボリューム レンダリング、ボール トレーシング、その他の 3D レンダリング フォワード モデルは、フォトリアリスティックな結果を生成できます。ただし、特定の光線については、光線が最初にシーン ジオメトリと交差する 3D 座標で、基礎となる 3D シーンをサンプリングする必要があります。この交点は事前に知られていないため、レイマーチング アルゴリズムは最初にこの表面点を発見する必要があります。最終的に、これにより、シーンの幾何学的複雑さに比例して時間とメモリの複雑さが生じ、ますます複雑なシーンをレンダリングするには、より多くのポイントをサンプリングする必要があります。実際には、光線ごとに数百、さらには数千のポイントがあります。さらに、反射と 2 次照明効果を正確にレンダリングするには、複数のバウンス レイ トレーシングが必要となるため、ピクセルごとに 1 つだけではなく複数のレイをトレースする必要があります。これにより、高い計算負荷が生じます。単一のシーンを再構成する場合 (オーバーフィッティング) は、賢明なデータ構造、ハッシュ、および専門的な低レベル エンジニアリングによって回避できますが、わずかな観測値または単一の画像だけを与えて 3D シーンを再構成する場合、このデータはこの構造は、畳み込みニューラル ネットワークを使用して 1 つの画像から 3D シーンのパラメータを推測するなど、学習された再構成アルゴリズムの適用を妨げます。

7 エンジニアリングフレームワーク

ニューラル レンダリング モデルの使用は、実務者にとって重大なエンジニアリング上の課題を引き起こします。つまり、大量の画像データとビデオ データを非常に非順次的な方法で処理する必要があり、モデルでは多くの場合、大規模な計算グラフと複雑な計算グラフを区別する必要があります。効率的な演算子を開発するには、多くの場合、低レベル言語の使用が必要になりますが、これにより自動微分の使用も難しくなります。ニューラル レンダリングに関連するソフトウェア スタック全体を克服するのに役立つツールの最近の進歩。ストレージ、ハイパーパラメータ検索、差分レンダリング、レイ キャスティングなどが含まれます。

未解決の質問と課題

  • シームレス統合
  • 拡大する
  • 通用化
  • マルチモーダル学習
  • 品質

社会的影響

新しいニューラル表現によって最も影響を受ける分野は、コンピューター ビジョン、コンピューター グラフィックス、拡張現実と仮想現実であり、レンダリングされた環境のフォトリアリズムが強化されることで恩恵を受ける可能性があります。実際、最先端の体積モデルは、理解しやすく洗練された原理に基づいており、写真測量や 3D 再構築研究の障壁を低くしています。さらに重要なことは、この効果は、これらのメソッドと公的に利用可能なコード ライブラリとデータセットの使いやすさによって増幅されるということです。

ニューラル レンダリングはまだ未熟でよく理解されていないため、これらの新しいアプローチを可能にする Blender のようなエンドユーザー ツールはまだ存在していません。しかし、テクノロジーに対するより幅広い理解は、必然的に開発された製品やアプリケーションに影響を与えます。ゲームコンテンツ制作や映画特殊効果の作業負荷の軽減が期待されます。いくつかの入力画像からシーンのフォトリアリスティックな新しいビューをレンダリングできることは、最先端技術に比べて大きな利点です。これにより、視覚効果 (VFX) 業界で確立されたコンテンツ デザインのプロセス全体が再構築される可能性があります。

結論

ニューラル レンダリングの分野はここ数年で急速に発展し、急速に成長し続けています。その用途は、剛体シーンと非剛体シーンの任意視点ビデオから、形状やマテリアルの編集、再照明、人間のアバターの生成まで多岐にわたります。

私たちは、ニューラル レンダリングはまだ新興分野であり、対処できる未解決の課題が数多くあると考えています。

【プロジェクトの推薦】

Xiaobai の主要なカンファレンス論文のコア コード ライブラリ: https://github.com/xmu-xiaoma666/ external-tention-pytorch

Xiaobai 用 YOLO ターゲット検出ライブラリ: https://github.com/iscyy/yoloair

Xiaobai のトップジャーナルとカンファレンスの論文分析: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

![](https://files.mdnice.com/user/18705/379cbb49-f18e-4590-9a3c-4d

おすすめ

転載: blog.csdn.net/Jason_android98/article/details/127140316