Magic3D: 高解像度テキストから 3D コンテンツへの作成 (高解像度テキストから 3D コンテンツへの作成)

Magic3D: 高解像度テキストから 3D コンテンツへの作成 (高解像度テキストから 3D コンテンツへの作成)

図 1. Magic3D の結果と応用。 上: 高解像度のテキストを 3D 生成します。 Magic3D は、テキスト プロンプトから高品質で高解像度の 3D モデルを生成できます。 下: ヒントベースの高解像度編集。 Magic3D は、事前の拡散を微調整することで、3D モデルを編集してさまざまなキューを使用できます。 低解像度の 3D モデルを入力 (左) として受け取ると、Magic3D はさまざまな入力テキスト キューに基づいて 3D モデルのさまざまな部分を変更できます。 Magic3D は、結果として得られる 3D モデルに対するさまざまなクリエイティブなコントロールに加えて、3D コンテンツの作成を強化するための便利なツールです。

論文:https://readpaper.com/pdf-annotate/note?pdfId=4738271534435532801¬eId=1848084184935912192
プロジェクト:https://research.nvidia.com/labs/dir/magic3d/

元のリンク: Magic3D: 高解像度テキストから 3D コンテンツの作成 (小規模サンプルのビジョンとインテリジェンスのフロンティアによる)

01 既存の業務が不足していませんか?

DreamFusion には 2 つの固有の制限があります: (a) NeRF の最適化が非常に遅い、(b) NeRF の低解像度の画像空間監視により処理時間が長くなり、3D モデルの品質が低下します。

02 この記事はどのような問題を解決しますか?

DreamFusion では、2 段階の最適化フレームワークを利用して、上記の 2 つの制限に対処しています。それは最適化速度を上げ、3Dモデルの品質を向上させることです。

03 鍵となる解決策は何ですか?

  • まず、低解像度の拡散事前処理を使用して粗いモデルが取得され、疎な 3D ハッシュ グリッド構造を使用して加速されます。
  • テクスチャ付き 3D メッシュ モデルは、初期化として粗い表現を使用してさらに最適化され、効率的な微分可能なレンダラーを使用して高解像度の潜在拡散モデルと相互作用します。

04 どのような効果がありましたか?

Magic3D と呼ばれる私たちの手法は、高品質の 3D メッシュ モデルを 40 分で作成できます。これは、DreamFusion よりも 2 倍速く (平均 1.5 時間かかると報告されています)、同時により高い解像度も実現します。
ユーザー調査によると、評価者の 61.7% が DreamFusion よりも当社のアプローチを好んでいます。画像条件生成機能と組み合わせることで、ユーザーに 3D 合成を制御する新しい方法を提供し、さまざまなクリエイティブなアプリケーションに新しい道を開きます。

05 主な貢献は何ですか?

  • DreamFusion のいくつかの主要な設計選択肢を改善することにより、テキスト キューを使用した高品質 3D コンテンツ合成のためのフレームワークである Magic3D を紹介します。これは、低解像度と高解像度の拡散事前分布を活用してターゲット コンテンツの 3D 表現を学習する、粗いものから細かいものまでの戦略で構成されています。Magic3D 複合 3D コンテンツの解像度は DreamFusion の 8 倍、速度は DreamFusion の 2 倍です。私たちの方法で合成された 3D コンテンツは明らかにユーザー (61.7%) に好まれています。
  • 私たちは、テキストから画像へのモデル用に開発されたさまざまな画像編集手法を 3D オブジェクト編集に拡張し、提案されたフレームワークでのアプリケーションを実証します。

06 関連する仕事にはどのようなものがありますか?

  • テキストから画像への生成。
  • 3D 生成モデル
  • テキストから 3D への生成

07 メソッドはどのように実行されますか?

図 2. Magic3D の概要. 入力テキスト キューから粗いものから細かいものまで高解像度の 3D コンテンツを生成します。 最初の段階では、低解像度の拡散を事前に利用し、神経フィールド表現 (色、密度、法線フィールド) を最適化して、粗いモデルを取得します。 さらに、粗いモデルの密度フィールドとカラー フィールドからテクスチャ付き 3D メッシュを差分抽出します。 次に、高解像度の潜在拡散モデルを使用して微調整します。 最適化後、モデルは詳細なテクスチャを備えた高品質の 3D メッシュを生成します。

背景: ドリームフュージョン

DreamFusion では、勾配を計算する分別蒸留サンプリング (SDS) が導入されています。

高解像度 3D 生成

Magic3D は、効率的なシーン モデルを使用して高解像度のテキストから 3D への合成を可能にする 2 段階の粗いから細かいまでのフレームワークです (図 2)。

1)粗いから細かいへの拡散プリア

Magic3D は、2 つの異なる拡散事前分布を粗いものから細かいものまで使用して、高解像度のジオメトリとテクスチャを生成します。最初の段階では、eDiff-I [2] で説明されているベース拡散モデルを使用します。これは、DreamFusion で使用される Imagen [38] のベース拡散モデルに似ています。第 2 段階では、潜在拡散モデル (LDM) [36] を使用します。これにより、勾配を高解像度 512 × 512 のレンダリング画像に逆伝播することができます。

高解像度の画像が生成されますが、64 × 64の解像度で事前拡散が潜在 zt に作用するため、LDM の計算は管理可能です。z:

2)シーンモデル

粗いシーン モデルとしてのニューラル フィールド
最適化の最初の粗い段階では、ジオメトリとテクスチャを最初から見つける必要があります。3D ジオメトリの複雑なトポロジ変化と 2D 監視信号の深さの曖昧さに対応する必要があるため、これは困難な場合があります。

ボリューム レンダリングでは、高周波のジオメトリとシェーディングを正確に表現するために光線に沿った高密度のサンプルが必要となるため、各サンプル ポイントで大規模なニューラル ネットワークを評価するコストはすぐに増加します。このため、私たちはインスタント NGP [27] のハッシュ グリッド コーディングを使用することを選択しました。これにより、より低い計算コストで高周波の詳細を表現できるようになります。

また、シーンの占有をエンコードし、空のスペース ジャンプを利用する空間データ構造も維持します [20、45]。

具体的には、Instant NGP [27] の密度ベースのボクセル プルーニング手法と、オクツリー ベースのレイ サンプリングおよびレンダリング アルゴリズム [46] を使用します。これらの設計の選択により、品質を維持しながら、粗いシーン モデルの最適化が大幅にスピードアップされます。

細かいシーン モデルとしてのテクスチャ メッシュ
最適化の細かい段階では、テクスチャ 3D メッシュをシーン表現として使用します。ニューラル ドメインのボリューム レンダリングと比較して、微分可能なラスタライザーを使用したテクスチャ メッシュのレンダリングは非常に高い解像度で効率的に実行できるため、メッシュは高解像度の最適化段階に適した選択肢となります。粗い段階からのニューラル フィールドをメッシュ ジオメトリの初期化として使用すると、メッシュ内の多数のトポロジ変化を学習する困難を回避することもできます。

変形可能な四面体メッシュ( VT , T ) (V_T,T)を使用します。( VTT )は 3D 形状を表します。ここで、VT V_TVTメッシュ T の頂点です。
各頂点vi ∈ VT v_i \in V_Tv私はVT符号付き距離フィールド (SDF) 値が含まれますsi ∈ R s_i \in Rs私はRとその初期正準座標に対する頂点Δ vi ∈ R 3 \Delta v_i \in R^3v _私はR
次に、微分可能可動四面体アルゴリズム [41] を使用して、SDF から表面メッシュを抽出します。テクスチャの場合、ボリュームテクスチャ表現としてニューラルカラーフィールドを使用します。

3)粗いものから細かいものへの最適化

最初に粗いニューラル フィールド表現を操作し、次に高解像度のテクスチャ メッシュを操作する、粗いから細かいへの最適化手順について説明します。

神経場の最適化:
密度の差から法線を推定する代わりに、MLP を使用して法線を予測します。サーフェス レンダリングの代わりにボリューム レンダリングが使用されるため、これはジオメトリ プロパティに違反しないことに注意してください。したがって、連続した位置でのパーティクルの向きはサーフェス レベルのレベルに合わせる必要はありません。これは、有限差分の使用を回避することで、粗いモデルを最適化する計算コストを大幅に削減するのに役立ちます。

DreamFusion と同様に、光の方向の関数として RGB カラーを予測する環境マップ MLP を使用して背景もモデル化します。

環境マップに小さな MLP (隠れ次元サイズ 16) を使用し、学習率を 10 分の 1 に下げて、モデルが神経フィールドのジオメトリにより集中できるようにします。

メッシュの最適化ニューラル フィールドの初期化からメッシュを最適化するには、ゼロ以外の定数を減算して (粗い) 密度フィールドを SDF に変換し、結果として初期si s_iが得られます。s私は

表面の滑らかさを改善するために、メッシュ上の隣接する面間の角度の差をさらに規則化します。これにより、SDS 勾配などの分散が大きい監視信号でも良好なジオメトリを取得できます。

08 実験結果と比較効果は何ですか?

速度評価

特に明記されていない限り、粗ステージは、バッチ サイズ 32、合計実行時間約 15 分 (8 反復/秒以上、時間によって異なります) で、レイに沿った 1024 個のサンプルで 5000 回の反復でトレーニングされました (その後、スパース オクツリーでフィルター処理されます)。スパース性の違いによる)。改良フェーズは、バッチ サイズ 32 を使用して 3000 回の反復でトレーニングされ、合計実行時間は 25 分 (2 反復/秒) でした。どちらの実行時間も合計すると 40 分になります。すべてのランタイムは 8 つの NVIDIA A100 GPU で測定されます。

定性的な比較。

図 3. DreamFusion との定性的比較 [33]。 DreamFusion と同じテキスト プロンプトを使用します。 各 3D モデルについて、2 つのビューからレンダリングします。それぞれのビューはテクスチャなしでレンダリングされ、実際の 3D 形状に焦点を当てるために背景が削除されます。 DreamFusion の結果については、公式 Web ページで公開されているビデオからフレームを取得します。 DreamFusion と比較して、Magic3D は幾何学的およびテクスチャーの両方で高品質の 3D 形状を生成します。 *…のデジタル一眼レフ写真 †…の縮小デジタル一眼レフ写真

ユーザー調査。

表 1. ユーザーの好みの調査。 DreamFusion が公開した 397 個のヒントを使用して生成された 3D モデルの好みを測定するために、ユーザー調査を実施しました。 全体として、より多くの評価者 (61.7%) が DreamFusion よりも Magic3D で生成された 3D モデルを好みます。 Magic3D では、ほとんどの評価者 (87.7%) が粗いモデルよりも細かいモデルを好みます。これは、粗いモデルから細かいモデルへのアプローチの有効性を示しています。

パーソナライズされたテキストを 3D に変換します。

特定の入力画像内の被写体を保存しながら 3D モデルを正常に変更することができました。

図 6. Magic3D と dreambooth に基づくパーソナライゼーション。 インスタンス固有の入力画像が与えられると、DreamBooth を使用して拡散モデルを微調整し、指定されたキューに基づいて 3D モデルを最適化します。 アイデンティティは、結果として得られる 3D モデルによく保存されます。

微調整によるプロンプトベースの編集。

基本キューを変更し、高解像度で NeRF モデルを微調整し、メッシュを最適化しました。手がかりに基づいてシーン モデルを微調整できることがわかりました。たとえば、「小さなウサギ」を「ステンド グラスのウサギ」や「金属のウサギ」に変更すると、ジオメトリは似ていますが、テクスチャは異なります。

図 7. ヒントベースの編集を備えた Magic3D。 基本的なキューから生成された粗いモデル (最初の列) が与えられた場合、下線付きのテキストを新しいテキストに置き換え、NeRF を微調整して、LDM を使用して高解像度の NeRF モデルを取得します。 NeRF モデルを使用して高解像度グリッドをさらに微調整します。 このヒントベースの編集アプローチにより、アーティストは 3D で生成された出力をより詳細に制御できるようになります。

09 アブレーション研究は何を教えてくれますか?

単一段階の最適化は以前の LDM でも機能しますか?

図 4. シングルステージ (上) と粗密モデル (下)。 どちらもシーン モデルとして NeRF を使用します。 最適化中、左側の 2 つの列は 64 x 64 のレンダリング解像度を使用し、右側の 2 つの列は 256 x 256 を使用します。 粗調から精密への方法と比較すると、シングルステージ方法では詳細を生成できますが、形状は劣ります。

ファインモデルにNeRFを使用できますか?

はい、NeRF を最初から最適化するのはうまくいきませんが、粗密フレームワークに従い、第 2 段階のシーン モデルを NeRF に置き換えることはできます。

粗いモデルと細かいモデル。

NeRF モデルとメッシュ モデルの両方で大幅な品質の向上が確認されており、粗いものから細かいものへのアプローチが一般的なシーン モデルに適していることが示唆されています。

図 5. 微調整段階のアブレーション。 各テキスト キューについて、粗いモデルと細かいモデルをグリッドおよび NeRF 表現と比較します。 メッシュの微調整により、生成された 3D アセットの視覚的な品質が大幅に向上し、3D 形状のより現実的な詳細が提供されます。

10 結論

私たちは、高速かつ高品質のテキストから 3D への生成フレームワークである Magic3D を紹介します。粗いものから細かいものへのアプローチでは、効率的なシーン モデルと高解像度の拡散事前分布の恩恵を受けています。特に、3D メッシュ モデルは画像解像度に合わせて適切に拡張され、速度を犠牲にすることなく潜在拡散モデルからの高解像度監視の利点を享受できます。テキスト プロンプトから、グラフィック エンジンで使用できる高品質の 3D メッシュ モデルが完成するまでに 40 分かかります。広範なユーザー調査と定性的比較を通じて、DreamFusion と比較して Magic3D が 2 倍高速であるにもかかわらず、評価者 (61.7%) に好まれていることがわかりました。最後に、3D 生成のスタイルとコンテンツをより適切に制御するためのツールのセットを提案します。私たちは、Magic3D を通じて一般的な 3D 合成を実現し、3D コンテンツ作成における皆様の創造性を広げたいと考えています。

元のリンク: Magic3D: 高解像度テキストから 3D コンテンツの作成 (小規模サンプルのビジョンとインテリジェンスのフロンティアによる)

おすすめ

転載: blog.csdn.net/NGUever15/article/details/131682591