Vox-E: Text-guided Voxel Editing of 3D Objects (3D オブジェクトのテキストガイド付きボクセル編集)

Vox-E: Text-guided Voxel Editing of 3D Objects (3D オブジェクトのテキストガイド付きボクセル編集)

図 1. オブジェクトのマルチビュー画像 (左) が与えられた場合、私たちの技術はターゲット テキスト キューから体積編集を生成し、入力オブジェクトを忠実に保存しながら、大幅な幾何学的および外観の変更を可能にします。 オブジェクトは、ユーザーが提供するテキスト プロンプトの性質に応じて、ローカル (中央) またはグローバル (右) で編集できます。

論文:https://readpaper.com/paper/1705264952657440000

コード:http://vox-e.github.io/

元のリンク: Vox-E: Text-Guided Voxel Editing for 3D Targets (Small Sample Vision および Intelligent Frontiers による)

01 既存の業務が不足していませんか?

この分野の研究は主に、オブジェクトのテクスチャ [44、46] やスタイル [48、42] を変更する外観のみの操作、または明示的なメッシュ表現 [13、47、45] への対応によるジオメトリ編集、つまりこれらの表現を接続することに焦点を当ててきました。メッシュ変形に関する豊富な文献 [18,39]。残念ながら、これらの方法では依然として明示的なメッシュ表現上にユーザー定義の制御点を配置する必要があり、新しい構造を追加したり、オブジェクトのジオメトリを大幅に調整したりすることはできません。

02 この記事はどのような問題を解決しますか?

この研究では、潜在拡散モデルの力を利用して既存の 3D オブジェクトを編集する方法を提案します。

03 鍵となる解決策は何ですか?

私たちの方法は、3D オブジェクトの指向性のある 2D 画像を入力として受け取り、そのメッシュベースの体積表現を学習します。ボリューム表現をターゲットのテキストキューに合わせてガイドするために、無条件のテキストから 3D へのアプローチに従い、分別蒸留サンプリング (SDS) 損失を最適化します。

3D 空間で直接動作する新しい体積正則化損失を導入し、3D 表現の明示的な性質を利用して、元のオブジェクトと編集されたオブジェクトのグローバル構造の間の相関関係を強化します。

さらに、編集の空間範囲を調整するためにクロスアテンションボリュームのグリッドを最適化する手法を提案します。

04 主な貢献は何ですか?

  • 3D 正則化で結合された結合ボリューム表現により、入力オブジェクトの外観とジオメトリを維持しながら、拡散モデルをガイドとして使用して 3D オブジェクトを編集できます。
  • 3D クロスアテンションに基づくボリューム セグメンテーション技術。テキスト編集の空間範囲を定義します。
  • 結果は、私たちが提案したフレームワークが、以前は不可能であった幅広い編集タスクを実行できることを示しています。

05 関連する仕事にはどのようなものがありますか?

  • テキスト駆動のオブジェクト編集
  • テキストから 3D へ

06 メソッドはどのように実行されますか?

図 2. 私たちのアプローチの概要。 オブジェクトを描写する一連のポーズ画像が与えられた場合、初期特徴メッシュ (左) を最適化します。 次に、生成 SDS 損失とボリューム正則化を使用してテキストガイドによるオブジェクト編集を実行し、編集されたメッシュ Ge を最適化します。 編集を局所化するために、オブジェクトと編集領域の確率分布を定義する 3D クロスアテンション グリッドを改良します。 すべてのボクセルにわたるエネルギー最小化問題を使用して、これらのグリッドからボリューム マスクを取得します。 最後に、初期メッシュと編集済みメッシュをマージして、洗練された体積メッシュ (右) を取得します。

グリッドベースの体積表現

各ボクセルに 4D 特徴ベクトルが含まれる 3D グリッド G を使用します。ReLU を通じて非線形化されたときの空間密度値を表す単一の特徴チャネルを使用してオブジェクトのジオメトリをモデル化します。3 つの追加の機能チャネルはオブジェクトの外観を表し、シグモイド関数を通過すると RGB カラーにマッピングされます。最近のニューラル 3D シーン表現 (ReLU フィールドを含む) とは対照的に、2D 拡散ベースのモデルによって誘導されると望ましくないアーティファクトが生じることが判明したため、ビュー依存の外観効果をモデル化していないことに注意してください。

入力オブジェクトをメッシュベースの表現で表現するには、NeRF [28] で説明されているように、画像と関連するカメラのポーズを使用してボリューム レンダリングを実行します。ただし、NeRF とは対照的に、位置エンコーディングは使用しません。代わりに、各位置クエリでグリッドをサンプリングして、補間された密度と色の値を取得し、各光線に沿って蓄積します。レンダリングされた出力と入力イメージの間で単純な L1 損失が使用され、入力オブジェクトを表すグリッドベースのボリューム Gi が学習されます。

テキストガイドによるオブジェクト編集

前のセクションで説明した初期ボクセル グリッド Gi に基づいて、Gi から初期化された編集オブジェクトを表すグリッド Ge を最適化することにより、テキスト ガイド付きオブジェクト編集を実行します。私たちの最適化スキームは、ターゲット テキスト キューによってガイドされる生成コンポーネントと、新しいメッシュが初期値から大きく逸脱しないように促すプルバック項を組み合わせたものです。後で示すように、結合ボリューム表現はシステムにさらなる柔軟性を提供し、3D 空間で直接正則化することで 2 つの目的のより良いバランスを可能にします。次に、これら 2 つの最適化目標について説明します。

1) 生成的なテキストガイドによる目標

フィーチャ グリッドがテキスト キューを介して提供された希望の編集を尊重するようにするために、潜在拡散モデル (LDM) に適用される分別蒸留サンプリング (SDS) 損失を使用します。形式的には、各最適化反復で、ランダムなタイム ステップ t を使用して、結果の画像 x にノイズが追加されます。

分別蒸留勾配 (ピクセルあたり) は次のように表すことができます。


ここで、w は重み関数、s は入力ガイド テキストです。
Lin ら [23] が提案しているように、t を導出する最大時間ステップを段階的に減少させるアニーリング SDS 損失を使用し、編集された輪郭が形成された後に SDS が高周波情報に焦点を当てることができるようにします。これにより、一般的に出力の品質が高くなることが経験的にわかっています。

2)体積正則化

編集されたグリッド Ge を初期グリッド Gi に結合するボリューム正則化項を提案します。具体的には、入力グリッドfi σ f_i^{\sigma}を促進する損失項を組み込みます。fp密度特徴と編集グリッドfe σ f_e^{\sigma}fepの密度特徴間の相関関係:

この体積損失には、シーンの外観をその構造から切り離すことができるため、画像空間損失よりも大きな利点があり、マルチビュー最適化問題として扱うのではなく、3D 空間での体積表現をリンクできます。

3D クロスアテンションによる空間洗練

クロスアテンション レイヤーからの信号を活用して、編集する必要があるボクセルをマークするボリューム バイナリ マスク M を生成する (オプションの) リファインメント ステップを追加します。次に、入力グリッド Gi を編集済みグリッド Ge とマージして、洗練されたグリッド Gr を取得します。

エネルギー最小化ベースの継ぎ目非表示セグメンテーション アルゴリズムを使用して、これらの 3D 確率フィールドをバイナリ マスク M [3] に変換します。ボクセル ユニットのラベル確率を 2 つの交差するアテンション グリッドA e A_eとして定義します。A obj A_{obj}ああBJ要素ごとのソフトマックス。ここで、

  • AE は、編集を説明するマーカー (サングラスなど) に関連付けられたクロスアテンション グリッドです。
  • オブジェクト A_{obj}ああBJオブジェクトに関連付けられたグリッドです。 オブジェクトに関連付けられたグリッドであり、プロンプト内の他のすべてのトークンの最大確率として定義されます。

編集されたメッシュの局所的な色の違いから平滑化項を計算します。つまり、次のように合計します。


隣接するボクセルの各ペア p と q について、cp と cq は Ge からの RGB カラーです。
最後に、グラフ切断 [7] によってこのエネルギー最小化問題を解決し、図 3 に示すような高品質のセグメンテーション マスクが得られます。

図 3. 最適化された 3D クロスアテンション グリッド編集のローカリゼーション。 粗い 2D クロスアテンション マップ (3 列目) を利用して、3D クロスアテンション グリッド (4 列目) のトレーニングを監視します。 編集 (上記の「クリスマス セーター」と「王冠」) およびオブジェクト領域に関連付けられたクロス アテンション グリッドを使用して、体積バイナリ セグメンテーション マスク (5 番目のリスト) を出力するエネルギー最小化問題を定式化します。 次に、このボリューム マスクを使用して入力グリッド (最初の列) と編集されたグリッド (2 番目の列) の特徴をマージし、最終出力 (右端の列) を取得します。 クロス アテンション マップでは、暖色系の色がより高いアクティベーションに対応し、バイナリ セグメンテーション マスクでは、編集された領域が灰色で示されていることに注意してください。

07 実験結果と比較効果は何ですか?

さまざまな 3D オブジェクトとさまざまな編集の定性的な編集結果を図 1、4、5、8、6、7 に示します。

図 4. さまざまなオブジェクトとキューに対してこの方法で得られた結果 (入力は左側に表示)。

図 5 では、Mildenhall ら [28] によって提供された 360° 現実のシーンを使用して、私たちの方法が現実のシーンのモデル化と編集にも成功していることを示しています。示されているように、私たちの方法は前景 (例: 花をヒマワリに変える) または背景 (例: 地面を池に変える) をローカルに編集できます。

図 5. 公開されている 360° 現実のシーンに対する私たちの方法の定性的結果 [28]。 初期メッシュからレンダリングされたイメージを中央の行に、編集したメッシュからレンダリングされたイメージを下の行に示します。 上に示したように、私たちの方法は、前景領域と背景領域を明示的にモデル化することなく、これらの実際のシーンに対して説得力のある編​​集を生成できます。

図 6 に、シェーディングされていないメッシュでの定性的な比較を示します (レイテント ペイントが入力ジオメトリを固定したままにするため、そのジオメトリが一番上の行で観察できます)。示されているように、Text2Mesh は大幅なジオメトリ編集 (馬にサンタ帽を追加したり、馬をロバに変えるなど) を生成できません。幾何学的編集を可能にする SketchShape でさえ、重要なローカル編集は可能ではありません。また、メソッドが保持する予定のない入力ジオメトリを保持することはできません。一方、私たちの方法は、入力のジオメトリを維持しながらターゲットのテキストキューをうまく追跡し、ジオメトリと外観に対する意味的に意味のある変更を可能にします。

図 6. 他の 3D オブジェクト編集手法との比較。 Text2Mesh [27] と Latent-NeRF [26] の 2 つのアプリケーション (Latent-Paint および SketchShape) を使用して得られた定性的な結果を示し、私たちの方法と比較します。 問題の設定に合わせるために、すべてのメソッドにはシェーディングされていないメッシュが提供されています。 入力メッシュが一番上の行に表示されていることに注意してください(LatentPaint はオブジェクトのジオメトリを編集しないため)。 上で述べたように、以前の方法では意味的に局所的な編集を実現するのが困難でした。 私たちの方法は、入力オブジェクトに対する高い忠実度を維持しながら成功します。

データセットの定量的評価を表 1 に示します。トレーニング ドメイン内のすべてのメソッドの動作を公平に比較​​するために、すべてのベースライン メソッドの入力としてテクスチャ マッピングのないメッシュを使用します。表に示されているように、CLIP の類似性に関して、私たちの方法はローカルおよびグローバル編集のすべてのベースラインよりも優れていますが、Text2Mesh は CLIP 方向でわずかに高い類似性を生成します。Text2Mesh は CLIP の類似性を明示的に最適化するため、CLIP メトリックに関して優位性を持っていることに注意してください。そのため、そのスコアは完全には指標ではありません。

表 1. 定量的評価。 3D オブジェクト編集技術 Text2Mesh [27] と SketchShape [26] をローカル (上部) 編集とグローバル (下部) 編集について比較します。 *Text2Mesh はクリッピング損失を最小限に抑えるように明示的にトレーニングされているため、SkechShape や私たちのものと直接比較することは有益ではないことに注意してください。

図 7 では、Latent-NeRF で提案されている無条件の text-to-3d モデルを比較し、この無条件モデルも異なるキューの下で一貫したオブジェクトを生成することを保証できないことを示しています。また、この結果 (および編集) は、独自の大拡散モデル [35] が使用されていれば確実に見栄えが良くなるはずですが、それにもかかわらず、これらのモデルは同一性を保持しないことにも注意します。

図 7. 無条件のテキストから 3D への生成との比較。 上記のように 2 つのターゲット キューが与えられた Latent-NeRF [26] を比較することにより、無条件テキストから 3D へのアプローチを比較します。 それらを結果とともに示します (左側が LatentNeRF、右側が我々の結果)。 前述したように、無条件メソッドは入力オブジェクトと簡単に一致することができず、異なるプロンプト間で一貫したオブジェクトを生成する保証もありません。

図 8 に示すように、2D 手法では、標準的ではないビュー (犬の背中にサングラスを追加するなど) から意味のある結果を生み出すのに苦労することが多く、非常に一貫性のないビュー結果も生成されます。
図 8. 2D 画像編集技術との比較。 テキストガイド付き画像編集技術 InstructPix2Pix (IPix2Pix) [8] と SDEdit [25] を比較します。これらは、さまざまな視点から画像を提供し、指示テキストの合図をターゲットにします (「犬にサングラスをかける」の場合は IPix2Pix、「犬」の場合は SDEdit と私たちの方法)。サングラス付き」)。 左側に 1 つの入力画像、右側に 3 つの出力 (側面、正面、背面のビュー) を示しています。最も左側の出力は入力視点に対応します。 これらの方法では一般に白い背景の方が難しいことが観察されているため、2 つのバリエーションを示します。1 つは背景を追加したもの (上の行) です。 前述したように、2D 技術では 3D と一致する編集結果を簡単に実現することはできません。

08 アブレーション研究は何を教えてくれますか?

アブレーション研究を表 2 と図 9 に示します。具体的には、ボリュームの正則化を削除します ( L reg 3 D \mathcal{L}_{reg3D}L3D記録_) および 3D クロスアテンション ベースの空間リファインメント モジュール (SR)。ボリューム正則化を削除するときは、単一​​のボリューム グリッドを使用し、イメージベースの L2 正則化損失を使用して SDS ターゲットを正則化します。

図 9. ターゲット キュー「<オブジェクト> はサングラスを着用している」に対する定性的アブレーション結果が 3 つの異なるオブジェクトで得られます。 画像空間の正則化 (「Lreg3D なし」と表記) は、非常にノイズの多い結果をもたらします。 リファイン前に編集されたメッシュ (「SR なし」で示される) はターゲット キューを尊重しますが、入力オブジェクトのジオメトリと外観に対する忠実性の一部が失われます。 対照的に、私たちの改良されたメッシュは編集領域と入力領域をうまく結合し、ターゲット テキストに準拠し、入力オブジェクトを保持する結果を出力します。

表 2. 効果に関する一連のメトリクス (詳細はセクション 4 を参照) に基づいて、結合メッシュ (Lreg3D、セクション 3.2) と 3D クロスアテンション ベースの空間リファインメント モジュール (SR、セクション 3.3) の間の体積正則化を評価するアブレーション研究。

09 この作業をどのように最適化できますか?

私たちの方法は、広範な高忠実度 3D オブジェクト編集に適していますが、考慮すべき制限がいくつかあります。図 10 に示すように、さまざまなビューに合わせて最適化するため、このメソッドは異なる空間位置で同じオブジェクトを編集しようとするため、いくつかのキューで失敗します。さらに、図からわかるように、編集の一部は、モデルが属性を間違ったトピックにバインドする属性バインディング エラーが原因で失敗しました。これは、大規模な拡散ベースのモデルでよくある課題です [9]。最後に、体積表現の制限を継承します。したがって、背景をシミュレートするためのシーンの縮小など、[6] などの作品からアイデアを借用することで、実際のシーンの品質を大幅に向上させることができます。
図 10. 制限事項  上では、いくつかの失敗例を示しています (図 6 の最初の行に示すシェーディングされていないメッシュのレンダリング イメージが提供された場合)。 これらは、間違ったプロパティ バインディング (馬の鼻が豚の鼻になる)、ビュー間の不一致 (ユニコーンには 2 本の角がある)、または入力オブジェクトの過剰な正則化 (敷物が馬の下ではなく馬の上にある) が原因である可能性があります。

10 結論

この研究では、拡散モデルの表現力を活用して 3D オブジェクトをテキストガイドに従ってボクセルごとに編集するための新しいフレームワークである Vox-E を提案します。技術的には、拡散ベースの画像空間ターゲットと体積正則化を組み合わせることで、ターゲット キューと入力 3D オブジェクトへの忠実度を達成できることを実証します。また、2D クロスアテンション マップが 3D 空間で位置特定を実行できることも示します。私たちの方法が、最新技術にとっては困難な、ローカル編集とグローバル編集の両方を生成できることを示します。私たちの取り組みにより、専門家でなくてもテキスト プロンプトを入力として使用するだけで 3D オブジェクトを簡単に変更できるようになり、3D コンテンツの作成と編集を民主化するという目標に近づくことができます。

元のリンク: Vox-E: Text-Guided Voxel Editing for 3D Targets (Small Sample Vision および Intelligent Frontiers による)

おすすめ

転載: blog.csdn.net/NGUever15/article/details/131470897