[論文分析] DreamBooth3D: 主題主導のテキストから 3D への生成

ここに画像の説明を挿入

論文:https://arxiv.org/abs/2303.13508
ホームページ:https://dreambooth3d.github.io/

概要

ここに画像の説明を挿入

3.アプローチ

問題の設定。

テキスト プロンプト T、および件名画像:
ここに画像の説明を挿入

私たちの目的は、テキスト プロンプトに忠実でありながら、指定された被写体のアイデンティティ (形状と外観) をキャプチャする 3D アセットを生成することです。
我々は、3D ボリューム内の放射輝度フィールドをエンコードする MLP ネットワーク M で構成される Neural Radiance Fields (NeRF) [28] の形式で 3D アセットを最適化します。
私たちのフレームワークでは、DreamFusion [33] text-to-3D の最適化と DreamBooth [38] のパーソナライゼーションを使用しています。

3.1. 予選

DreamBooth T2I パーソナライゼーション。

簡単に言うと、DreamBooth は次の拡散損失関数を使用して T2I モデルを微調整します。
ここに画像の説明を挿入
ここで、 t 〜 U[0, 1] は拡散プロセスのタイムステップを示し、wt、αt、および σt は対応するスケジューリング パラメーターです。

ドリームフュージョン

DreamFusion では、レンダリングされたイメージのノイズの多いバージョンをT2I 拡散モデルのより低いエネルギー状態にプッシュするスコア蒸留サンプリング (SDS) を導入しました。
ここに画像の説明を挿入

3.2. Naive Dreambooth+Fusion の失敗

主題主導型の text-to-3D 生成の直接的なアプローチは、まず T2I モデルをパーソナライズし、次に結果のモデルを Text-to-3D の最適化に使用することです。たとえば、DreamBooth の最適化を行ってから DreamFusion を実行します。これを DreamBooth+Fusion と呼びます。

ここに画像の説明を挿入

図 3: Latent-NeRF と DreamBooth+Fusion の 2 つのベースライン技術と、当社の技術 (DreamBooth3D) を使用した 5 人の異なる被験者の視覚結果。結果は、ベースライン手法のいずれかと比較して、私たちのアプローチの方が 3D の一貫性のある結果が優れていることを明確に示しています。追加の視覚化およびビデオについては、補足を参照してください。

私たちが発見した重要な問題は、 DreamBooth がトレーニング ビューに存在する対象ビューに過剰適合する傾向があり、画像生成における視点の多様性の減少につながるということです。

3.3. Dreambooth3D の最適化

図 2 は、私たちのアプローチの 3 つの段階を示しており、次に詳しく説明します。
ここに画像の説明を挿入

図 2: DreamBooth3D の概要。ステージ 1 (左) では、まず DreamBooth を部分的にトレーニングし、結果のモデルを使用して初期 NeRF を最適化します。ステージ 2 (中央) では、初期 NeRF からのランダムな視点に沿って多視点画像をレンダリングし、完全にトレーニングされた DreamBooth モデルを使用してそれらを疑似多視点被写体画像に変換します。最終ステージ 3 (右) では、マルチビュー画像を使用して部分的な DreamBooth をさらに微調整し、結果として得られたマルチビュー DreamBooth を使用して、マルチビュー再構成とともに SDS 損失を使用して最終的な NeRF 3D アセットを最適化します。損失。

ステージ 1: 部分的な DreamBooth を使用した 3D

まず、図 2 (左) に示すような入力被写体画像に対して、パーソナライズされた DreamBooth モデル ^Dθ をトレーニングします。

  • このような部分的に微調整された DreamBooth モデル上の DreamFusion は、より一貫性のある 3D NeRF を生成できます。
  • 図 2 (左) に示すように、SDS 損失 (式 2) を使用して、特定のテキスト プロンプトの初期 NeRF アセットを最適化します。
  • ただし、部分的な DreamBooth モデルと NeRF アセットは、入力主題との完全な類似性を欠いています。

ステージ 2: マルチビュー データの生成。

まず、最初の NeRF アセットからランダムな視点 {v} に沿って複数の画像をレンダリングし、その結果、図 2 (中央) に示すようなマルチビュー レンダリングが得られます。

  • 次に、各レンダリングから tpseudo への順拡散プロセスを実行することで固定量のノイズを追加し、[25] のように完全にトレーニングされた DreamBooth モデル ^Dθ を使用して逆拡散プロセスを実行してサンプルを生成します。( SDEdit: 画像合成と確率微分方程式による編集)
  • ただし、逆拡散プロセスにより異なるビューに異なる詳細が追加される可能性があるため、これらの画像はマルチビューの一貫性がありません。そのため、この画像のコレクションを擬似マルチビュー画像と呼びます。

ステージ 3: マルチビュー DreamBooth を使用した最終 NeRF。

DreamBooth と Img2Img の変換の確率的性質により、視点と主題らしさの両方がほぼ正確であるだけです。

次に、生成されたマルチビュー画像と入力被写体画像を使用して、最終的な DreamBooth モデル、続いて最終的な NeRF 3D アセットを最適化します。

次に、マルチビュー Dreambooth モデルを使用して、DreamFusion SDS 損失 (式 2) を使用して NeRF 3D アセットを最適化します。

特に、これらの画像が生成されたカメラ パラメーター {Pv } がわかっているため、再構成損失を伴う γ パラメーターを使用して、2 番目の NeRF MLP Fγ のトレーニングをさらに正規化します。右側の最初の項は、次のレンダリング関数です
ここに画像の説明を挿入
。カメラ視点 Pv に沿って NeRF Fγ からの画像をレンダリングします。

図 2 (右) は、SDS とマルチビュー再構成損失による最終 NeRF の最適化を示しています。最終的な NeRF 最適化目標は次のように与えられます。

ここに画像の説明を挿入

4. 実験

4.1. 結果

視覚的な結果。

図 1 は、さまざまな意味論的バリエーションと文脈化とともに、私たちのアプローチの視覚的結果のサンプルを示しています。

ここに画像の説明を挿入

図 1: DreamBooth3D は、わずか 3 ~ 6 枚の画像から特定の主題のもっともらしい 3D アセットを作成する、パーソナライズされたテキストから 3D への生成モデルです。上: フクロウ オブジェクトの 3D 出力と推定されたジオメトリ。下: 私たちのアプローチは、テキスト プロンプトに基づいて、さまざまなコンテキスト (睡眠) またはさまざまなアクセサリー (帽子やネクタイ) で 3D 被写体のバリエーションを生成できます。

定量的な比較。

表 1. DreamBooth3D の結果が著しく高いスコアを示していることは、結果の 3D 一貫性とテキストプロンプトの位置合わせが優れていることを示しています。
ここに画像の説明を挿入

表 1: DreamBooth+Fusion (ベースライン) 世代と DreamBooth3D 世代で CLIP Rprecision を使用した定量的な比較は、3D モデル出力からのレンダリングがテキスト プロンプトにより正確に似ていることを示しています。

初期 NeRF と最終 NeRF。

ここに画像の説明を挿入

図 4: NeRF の初期推定値と最終推定値。サンプルのマルチビュー結果は、ステージ 1 の後に取得された最初の NeRF は特定の被験者と部分的にしか類似していないのに対し、パイプラインのステージ 3 からの最終 NeRF は被験者の同一性が優れていることを示しています。

ユーザー調査。

私たちは、次の 3 つの軸でメソッドを評価するために、DreamBooth3D とベースラインを比較するペアごとのユーザー調査を実施します: (1) 被験者の忠実度 (2) 3D の一貫性と妥当性 (3) 即時の忠実度
ここに画像の説明を挿入

図 5: ユーザー調査。ユーザーは、3D の一貫性、被写体の忠実度、プロンプトの忠実度において、DB+DF や L-NeRF よりも DreamBooth3D を非常に好みます。

4.2. サンプルアプリケーション

再文脈化。

ここに画像の説明を挿入

図 6: DreamBooth3D による 3D 再コンテキスト化。テキスト プロンプトで簡単な編集を行うだけで、入力テキストのセマンティクスに対応する非剛体 3D アーティキュレーションと変形を生成できます。ビジュアルでは、座ったり、寝たり、飛び跳ねたりするさまざまな状況におけるさまざまな犬の一貫した文脈化が示されています。動画については補足をご覧ください。

カラー/マテリアル編集。

ここに画像の説明を挿入

図 7: サンプル アプリケーション。DreamBooth3D の主題の保存とテキスト プロンプトへの忠実さにより、色/マテリアルの編集、アクセサリー、スタイル化などのいくつかのアプリケーションが可能になります。DreamBooth3D は、非現実的な漫画画像からもっともらしい 3D モデルを生成することもできます。ビデオについては補足資料を参照してください。

アクセサリー

図 7 は、3D 猫モデルの出力にネクタイまたはスーツを着た、猫の被験者のアクセサリー付け結果のサンプルを示しています。同様に、帽子やサングラスをかぶるなどの他のアクセサリーも考えられます。

様式化

図 7 には、サンプルの様式化結果も示されています。ここでは、クリーム色の靴が色とフリルの追加に基づいて様式化されています。

漫画から 3D へ。

図 7 は、すべての画像が漫画を正面からしか示していないにもかかわらず、結果として得られる赤い漫画のキャラクターの 3D モデルが妥当であるサンプル結果を示しています。さまざまなアプリケーションに関する定性的な結果については、補足資料を参照してください。

4.3. 制限事項

  • まず、最適化された 3D 表現は過飽和で過度に滑らかになることがあります。
  • 最適化された 3D 表現は、入力画像に視点の変動が含まれていない場合、複数の一貫性のない視点からは正面を向いているように見えるというヤヌス問題に悩まされることがあります。
  • 私たちのモデルは、サングラスのような薄いオブジェクトの構造を再構築するのに苦労することがあります。

ここに画像の説明を挿入

図 8: 失敗例の例。DreamBooth3D は、サングラスのような薄いオブジェクト構造の再構築に失敗することが多く、入力画像のビューの変化が不十分なオブジェクトの再構築に失敗する場合もあります。

5。結論

この論文では、主題駆動型のテキストから 3D への生成方法である DreamBooth3D を提案しました。被写体を数枚 (3 ~ 6 枚) 何気なく撮影した画像を (カメラのポーズなどの追加情報なしで) 与えられると、入力テキスト プロンプトで提供されるコンテキスト化 (例: 睡眠、睡眠、ジャンプ、赤など)。DreamBooth データセット [38] での広範な実験により、私たちの方法が、入力テキスト プロンプトに存在するコンテキストを尊重しながら、特定の主題に非常に類似したリアルな 3D アセットを生成できることが示されました。私たちの方法は、定量的評価と定性的評価の両方でいくつかのベースラインを上回っています。今後も、被写体駆動型 3D 生成のフォトリアリズムと制御性の向上を継続する予定です。

おすすめ

転載: blog.csdn.net/NGUever15/article/details/129944223