Magic3D: 高解像度テキストから 3D コンテンツへの作成 (高解像度テキストから 3D コンテンツへの作成)
論文:https://readpaper.com/pdf-annotate/note?pdfId=4738271534435532801¬eId=1848084184935912192
プロジェクト:https://research.nvidia.com/labs/dir/magic3d/
元のリンク: Magic3D: 高解像度テキストから 3D コンテンツの作成 (小規模サンプルのビジョンとインテリジェンスのフロンティアによる)
記事ディレクトリ
01 既存の業務が不足していませんか?
DreamFusion には 2 つの固有の制限があります: (a) NeRF の最適化が非常に遅い、(b) NeRF の低解像度の画像空間監視により処理時間が長くなり、3D モデルの品質が低下します。
02 この記事はどのような問題を解決しますか?
DreamFusion では、2 段階の最適化フレームワークを利用して、上記の 2 つの制限に対処しています。それは最適化速度を上げ、3Dモデルの品質を向上させることです。
03 鍵となる解決策は何ですか?
- まず、低解像度の拡散事前処理を使用して粗いモデルが取得され、疎な 3D ハッシュ グリッド構造を使用して加速されます。
- テクスチャ付き 3D メッシュ モデルは、初期化として粗い表現を使用してさらに最適化され、効率的な微分可能なレンダラーを使用して高解像度の潜在拡散モデルと相互作用します。
04 どのような効果がありましたか?
Magic3D と呼ばれる私たちの手法は、高品質の 3D メッシュ モデルを 40 分で作成できます。これは、DreamFusion よりも 2 倍速く (平均 1.5 時間かかると報告されています)、同時により高い解像度も実現します。
ユーザー調査によると、評価者の 61.7% が DreamFusion よりも当社のアプローチを好んでいます。画像条件生成機能と組み合わせることで、ユーザーに 3D 合成を制御する新しい方法を提供し、さまざまなクリエイティブなアプリケーションに新しい道を開きます。
05 主な貢献は何ですか?
- DreamFusion のいくつかの主要な設計選択肢を改善することにより、テキスト キューを使用した高品質 3D コンテンツ合成のためのフレームワークである Magic3D を紹介します。これは、低解像度と高解像度の拡散事前分布を活用してターゲット コンテンツの 3D 表現を学習する、粗いものから細かいものまでの戦略で構成されています。Magic3D 複合 3D コンテンツの解像度は DreamFusion の 8 倍、速度は DreamFusion の 2 倍です。私たちの方法で合成された 3D コンテンツは明らかにユーザー (61.7%) に好まれています。
- 私たちは、テキストから画像へのモデル用に開発されたさまざまな画像編集手法を 3D オブジェクト編集に拡張し、提案されたフレームワークでのアプリケーションを実証します。
06 関連する仕事にはどのようなものがありますか?
- テキストから画像への生成。
- 3D 生成モデル
- テキストから 3D への生成
07 メソッドはどのように実行されますか?
背景: ドリームフュージョン
DreamFusion では、勾配を計算する分別蒸留サンプリング (SDS) が導入されています。
高解像度 3D 生成
Magic3D は、効率的なシーン モデルを使用して高解像度のテキストから 3D への合成を可能にする 2 段階の粗いから細かいまでのフレームワークです (図 2)。
1)粗いから細かいへの拡散プリア
Magic3D は、2 つの異なる拡散事前分布を粗いものから細かいものまで使用して、高解像度のジオメトリとテクスチャを生成します。最初の段階では、eDiff-I [2] で説明されているベース拡散モデルを使用します。これは、DreamFusion で使用される Imagen [38] のベース拡散モデルに似ています。第 2 段階では、潜在拡散モデル (LDM) [36] を使用します。これにより、勾配を高解像度 512 × 512 のレンダリング画像に逆伝播することができます。
高解像度の画像が生成されますが、64 × 64の解像度で事前拡散が潜在 zt に作用するため、LDM の計算は管理可能です。zた:
2)シーンモデル
粗いシーン モデルとしてのニューラル フィールド
最適化の最初の粗い段階では、ジオメトリとテクスチャを最初から見つける必要があります。3D ジオメトリの複雑なトポロジ変化と 2D 監視信号の深さの曖昧さに対応する必要があるため、これは困難な場合があります。
ボリューム レンダリングでは、高周波のジオメトリとシェーディングを正確に表現するために光線に沿った高密度のサンプルが必要となるため、各サンプル ポイントで大規模なニューラル ネットワークを評価するコストはすぐに増加します。このため、私たちはインスタント NGP [27] のハッシュ グリッド コーディングを使用することを選択しました。これにより、より低い計算コストで高周波の詳細を表現できるようになります。
また、シーンの占有をエンコードし、空のスペース ジャンプを利用する空間データ構造も維持します [20、45]。
具体的には、Instant NGP [27] の密度ベースのボクセル プルーニング手法と、オクツリー ベースのレイ サンプリングおよびレンダリング アルゴリズム [46] を使用します。これらの設計の選択により、品質を維持しながら、粗いシーン モデルの最適化が大幅にスピードアップされます。
細かいシーン モデルとしてのテクスチャ メッシュ
最適化の細かい段階では、テクスチャ 3D メッシュをシーン表現として使用します。ニューラル ドメインのボリューム レンダリングと比較して、微分可能なラスタライザーを使用したテクスチャ メッシュのレンダリングは非常に高い解像度で効率的に実行できるため、メッシュは高解像度の最適化段階に適した選択肢となります。粗い段階からのニューラル フィールドをメッシュ ジオメトリの初期化として使用すると、メッシュ内の多数のトポロジ変化を学習する困難を回避することもできます。
変形可能な四面体メッシュ( VT , T ) (V_T,T)を使用します。( VT、T )は 3D 形状を表します。ここで、VT V_TVTメッシュ T の頂点です。
各頂点vi ∈ VT v_i \in V_Tv私は∈VT符号付き距離フィールド (SDF) 値が含まれますsi ∈ R s_i \in Rs私は∈Rとその初期正準座標に対する頂点Δ vi ∈ R 3 \Delta v_i \in R^3v _私は∈R3.
次に、微分可能可動四面体アルゴリズム [41] を使用して、SDF から表面メッシュを抽出します。テクスチャの場合、ボリュームテクスチャ表現としてニューラルカラーフィールドを使用します。
3)粗いものから細かいものへの最適化
最初に粗いニューラル フィールド表現を操作し、次に高解像度のテクスチャ メッシュを操作する、粗いから細かいへの最適化手順について説明します。
神経場の最適化:
密度の差から法線を推定する代わりに、MLP を使用して法線を予測します。サーフェス レンダリングの代わりにボリューム レンダリングが使用されるため、これはジオメトリ プロパティに違反しないことに注意してください。したがって、連続した位置でのパーティクルの向きはサーフェス レベルのレベルに合わせる必要はありません。これは、有限差分の使用を回避することで、粗いモデルを最適化する計算コストを大幅に削減するのに役立ちます。
DreamFusion と同様に、光の方向の関数として RGB カラーを予測する環境マップ MLP を使用して背景もモデル化します。
環境マップに小さな MLP (隠れ次元サイズ 16) を使用し、学習率を 10 分の 1 に下げて、モデルが神経フィールドのジオメトリにより集中できるようにします。
メッシュの最適化ニューラル フィールドの初期化からメッシュを最適化するには、ゼロ以外の定数を減算して (粗い) 密度フィールドを SDF に変換し、結果として初期si s_iが得られます。s私は。
表面の滑らかさを改善するために、メッシュ上の隣接する面間の角度の差をさらに規則化します。これにより、SDS 勾配などの分散が大きい監視信号でも良好なジオメトリを取得できます。
08 実験結果と比較効果は何ですか?
速度評価
特に明記されていない限り、粗ステージは、バッチ サイズ 32、合計実行時間約 15 分 (8 反復/秒以上、時間によって異なります) で、レイに沿った 1024 個のサンプルで 5000 回の反復でトレーニングされました (その後、スパース オクツリーでフィルター処理されます)。スパース性の違いによる)。改良フェーズは、バッチ サイズ 32 を使用して 3000 回の反復でトレーニングされ、合計実行時間は 25 分 (2 反復/秒) でした。どちらの実行時間も合計すると 40 分になります。すべてのランタイムは 8 つの NVIDIA A100 GPU で測定されます。
定性的な比較。
ユーザー調査。
パーソナライズされたテキストを 3D に変換します。
特定の入力画像内の被写体を保存しながら 3D モデルを正常に変更することができました。
微調整によるプロンプトベースの編集。
基本キューを変更し、高解像度で NeRF モデルを微調整し、メッシュを最適化しました。手がかりに基づいてシーン モデルを微調整できることがわかりました。たとえば、「小さなウサギ」を「ステンド グラスのウサギ」や「金属のウサギ」に変更すると、ジオメトリは似ていますが、テクスチャは異なります。
09 アブレーション研究は何を教えてくれますか?
単一段階の最適化は以前の LDM でも機能しますか?
ファインモデルにNeRFを使用できますか?
はい、NeRF を最初から最適化するのはうまくいきませんが、粗密フレームワークに従い、第 2 段階のシーン モデルを NeRF に置き換えることはできます。
粗いモデルと細かいモデル。
NeRF モデルとメッシュ モデルの両方で大幅な品質の向上が確認されており、粗いものから細かいものへのアプローチが一般的なシーン モデルに適していることが示唆されています。
10 結論
私たちは、高速かつ高品質のテキストから 3D への生成フレームワークである Magic3D を紹介します。粗いものから細かいものへのアプローチでは、効率的なシーン モデルと高解像度の拡散事前分布の恩恵を受けています。特に、3D メッシュ モデルは画像解像度に合わせて適切に拡張され、速度を犠牲にすることなく潜在拡散モデルからの高解像度監視の利点を享受できます。テキスト プロンプトから、グラフィック エンジンで使用できる高品質の 3D メッシュ モデルが完成するまでに 40 分かかります。広範なユーザー調査と定性的比較を通じて、DreamFusion と比較して Magic3D が 2 倍高速であるにもかかわらず、評価者 (61.7%) に好まれていることがわかりました。最後に、3D 生成のスタイルとコンテンツをより適切に制御するためのツールのセットを提案します。私たちは、Magic3D を通じて一般的な 3D 合成を実現し、3D コンテンツ作成における皆様の創造性を広げたいと考えています。
元のリンク: Magic3D: 高解像度テキストから 3D コンテンツの作成 (小規模サンプルのビジョンとインテリジェンスのフロンティアによる)