Vox-E: Text-guided Voxel Editing of 3D Objects (3D オブジェクトのテキストガイド付きボクセル編集)
論文:https://readpaper.com/paper/1705264952657440000
コード:http://vox-e.github.io/
01 既存の業務が不足していませんか?
この分野の研究は主に、オブジェクトのテクスチャ [44、46] やスタイル [48、42] を変更する外観のみの操作、または明示的なメッシュ表現 [13、47、45] への対応によるジオメトリ編集、つまりこれらの表現を接続することに焦点を当ててきました。メッシュ変形に関する豊富な文献 [18,39]。残念ながら、これらの方法では依然として明示的なメッシュ表現上にユーザー定義の制御点を配置する必要があり、新しい構造を追加したり、オブジェクトのジオメトリを大幅に調整したりすることはできません。
02 この記事はどのような問題を解決しますか?
この研究では、潜在拡散モデルの力を利用して既存の 3D オブジェクトを編集する方法を提案します。
03 鍵となる解決策は何ですか?
私たちの方法は、3D オブジェクトの指向性のある 2D 画像を入力として受け取り、そのメッシュベースの体積表現を学習します。ボリューム表現をターゲットのテキストキューに合わせてガイドするために、無条件のテキストから 3D へのアプローチに従い、分別蒸留サンプリング (SDS) 損失を最適化します。
3D 空間で直接動作する新しい体積正則化損失を導入し、3D 表現の明示的な性質を利用して、元のオブジェクトと編集されたオブジェクトのグローバル構造の間の相関関係を強化します。
さらに、編集の空間範囲を調整するためにクロスアテンションボリュームのグリッドを最適化する手法を提案します。
04 主な貢献は何ですか?
- 3D 正則化で結合された結合ボリューム表現により、入力オブジェクトの外観とジオメトリを維持しながら、拡散モデルをガイドとして使用して 3D オブジェクトを編集できます。
- 3D クロスアテンションに基づくボリューム セグメンテーション技術。テキスト編集の空間範囲を定義します。
- 結果は、私たちが提案したフレームワークが、以前は不可能であった幅広い編集タスクを実行できることを示しています。
05 関連する仕事にはどのようなものがありますか?
- テキスト駆動のオブジェクト編集
- テキストから 3D へ
06 メソッドはどのように実行されますか?
グリッドベースの体積表現
各ボクセルに 4D 特徴ベクトルが含まれる 3D グリッド G を使用します。ReLU を通じて非線形化されたときの空間密度値を表す単一の特徴チャネルを使用してオブジェクトのジオメトリをモデル化します。3 つの追加の機能チャネルはオブジェクトの外観を表し、シグモイド関数を通過すると RGB カラーにマッピングされます。最近のニューラル 3D シーン表現 (ReLU フィールドを含む) とは対照的に、2D 拡散ベースのモデルによって誘導されると望ましくないアーティファクトが生じることが判明したため、ビュー依存の外観効果をモデル化していないことに注意してください。
入力オブジェクトをメッシュベースの表現で表現するには、NeRF [28] で説明されているように、画像と関連するカメラのポーズを使用してボリューム レンダリングを実行します。ただし、NeRF とは対照的に、位置エンコーディングは使用しません。代わりに、各位置クエリでグリッドをサンプリングして、補間された密度と色の値を取得し、各光線に沿って蓄積します。レンダリングされた出力と入力イメージの間で単純な L1 損失が使用され、入力オブジェクトを表すグリッドベースのボリューム Gi が学習されます。
テキストガイドによるオブジェクト編集
前のセクションで説明した初期ボクセル グリッド Gi に基づいて、Gi から初期化された編集オブジェクトを表すグリッド Ge を最適化することにより、テキスト ガイド付きオブジェクト編集を実行します。私たちの最適化スキームは、ターゲット テキスト キューによってガイドされる生成コンポーネントと、新しいメッシュが初期値から大きく逸脱しないように促すプルバック項を組み合わせたものです。後で示すように、結合ボリューム表現はシステムにさらなる柔軟性を提供し、3D 空間で直接正則化することで 2 つの目的のより良いバランスを可能にします。次に、これら 2 つの最適化目標について説明します。
1) 生成的なテキストガイドによる目標
フィーチャ グリッドがテキスト キューを介して提供された希望の編集を尊重するようにするために、潜在拡散モデル (LDM) に適用される分別蒸留サンプリング (SDS) 損失を使用します。形式的には、各最適化反復で、ランダムなタイム ステップ t を使用して、結果の画像 x にノイズが追加されます。
分別蒸留勾配 (ピクセルあたり) は次のように表すことができます。
ここで、w は重み関数、s は入力ガイド テキストです。
Lin ら [23] が提案しているように、t を導出する最大時間ステップを段階的に減少させるアニーリング SDS 損失を使用し、編集された輪郭が形成された後に SDS が高周波情報に焦点を当てることができるようにします。これにより、一般的に出力の品質が高くなることが経験的にわかっています。
2)体積正則化
編集されたグリッド Ge を初期グリッド Gi に結合するボリューム正則化項を提案します。具体的には、入力グリッドfi σ f_i^{\sigma}を促進する損失項を組み込みます。f私p密度特徴と編集グリッドfe σ f_e^{\sigma}fepの密度特徴間の相関関係:
この体積損失には、シーンの外観をその構造から切り離すことができるため、画像空間損失よりも大きな利点があり、マルチビュー最適化問題として扱うのではなく、3D 空間での体積表現をリンクできます。
3D クロスアテンションによる空間洗練
クロスアテンション レイヤーからの信号を活用して、編集する必要があるボクセルをマークするボリューム バイナリ マスク M を生成する (オプションの) リファインメント ステップを追加します。次に、入力グリッド Gi を編集済みグリッド Ge とマージして、洗練されたグリッド Gr を取得します。
エネルギー最小化ベースの継ぎ目非表示セグメンテーション アルゴリズムを使用して、これらの 3D 確率フィールドをバイナリ マスク M [3] に変換します。ボクセル ユニットのラベル確率を 2 つの交差するアテンション グリッドA e A_eとして定義します。あえ和A obj A_{obj}あああBJ要素ごとのソフトマックス。ここで、
- AE は、編集を説明するマーカー (サングラスなど) に関連付けられたクロスアテンション グリッドです。
- オブジェクト A_{obj}あああBJオブジェクトに関連付けられたグリッドです。 オブジェクトに関連付けられたグリッドであり、プロンプト内の他のすべてのトークンの最大確率として定義されます。
編集されたメッシュの局所的な色の違いから平滑化項を計算します。つまり、次のように合計します。
隣接するボクセルの各ペア p と q について、cp と cq は Ge からの RGB カラーです。
最後に、グラフ切断 [7] によってこのエネルギー最小化問題を解決し、図 3 に示すような高品質のセグメンテーション マスクが得られます。
07 実験結果と比較効果は何ですか?
さまざまな 3D オブジェクトとさまざまな編集の定性的な編集結果を図 1、4、5、8、6、7 に示します。
図 5 では、Mildenhall ら [28] によって提供された 360° 現実のシーンを使用して、私たちの方法が現実のシーンのモデル化と編集にも成功していることを示しています。示されているように、私たちの方法は前景 (例: 花をヒマワリに変える) または背景 (例: 地面を池に変える) をローカルに編集できます。
図 6 に、シェーディングされていないメッシュでの定性的な比較を示します (レイテント ペイントが入力ジオメトリを固定したままにするため、そのジオメトリが一番上の行で観察できます)。示されているように、Text2Mesh は大幅なジオメトリ編集 (馬にサンタ帽を追加したり、馬をロバに変えるなど) を生成できません。幾何学的編集を可能にする SketchShape でさえ、重要なローカル編集は可能ではありません。また、メソッドが保持する予定のない入力ジオメトリを保持することはできません。一方、私たちの方法は、入力のジオメトリを維持しながらターゲットのテキストキューをうまく追跡し、ジオメトリと外観に対する意味的に意味のある変更を可能にします。
データセットの定量的評価を表 1 に示します。トレーニング ドメイン内のすべてのメソッドの動作を公平に比較するために、すべてのベースライン メソッドの入力としてテクスチャ マッピングのないメッシュを使用します。表に示されているように、CLIP の類似性に関して、私たちの方法はローカルおよびグローバル編集のすべてのベースラインよりも優れていますが、Text2Mesh は CLIP 方向でわずかに高い類似性を生成します。Text2Mesh は CLIP の類似性を明示的に最適化するため、CLIP メトリックに関して優位性を持っていることに注意してください。そのため、そのスコアは完全には指標ではありません。
図 7 では、Latent-NeRF で提案されている無条件の text-to-3d モデルを比較し、この無条件モデルも異なるキューの下で一貫したオブジェクトを生成することを保証できないことを示しています。また、この結果 (および編集) は、独自の大拡散モデル [35] が使用されていれば確実に見栄えが良くなるはずですが、それにもかかわらず、これらのモデルは同一性を保持しないことにも注意します。
図 8 に示すように、2D 手法では、標準的ではないビュー (犬の背中にサングラスを追加するなど) から意味のある結果を生み出すのに苦労することが多く、非常に一貫性のないビュー結果も生成されます。
08 アブレーション研究は何を教えてくれますか?
アブレーション研究を表 2 と図 9 に示します。具体的には、ボリュームの正則化を削除します ( L reg 3 D \mathcal{L}_{reg3D}L3Dを記録_) および 3D クロスアテンション ベースの空間リファインメント モジュール (SR)。ボリューム正則化を削除するときは、単一のボリューム グリッドを使用し、イメージベースの L2 正則化損失を使用して SDS ターゲットを正則化します。
09 この作業をどのように最適化できますか?
私たちの方法は、広範な高忠実度 3D オブジェクト編集に適していますが、考慮すべき制限がいくつかあります。図 10 に示すように、さまざまなビューに合わせて最適化するため、このメソッドは異なる空間位置で同じオブジェクトを編集しようとするため、いくつかのキューで失敗します。さらに、図からわかるように、編集の一部は、モデルが属性を間違ったトピックにバインドする属性バインディング エラーが原因で失敗しました。これは、大規模な拡散ベースのモデルでよくある課題です [9]。最後に、体積表現の制限を継承します。したがって、背景をシミュレートするためのシーンの縮小など、[6] などの作品からアイデアを借用することで、実際のシーンの品質を大幅に向上させることができます。
10 結論
この研究では、拡散モデルの表現力を活用して 3D オブジェクトをテキストガイドに従ってボクセルごとに編集するための新しいフレームワークである Vox-E を提案します。技術的には、拡散ベースの画像空間ターゲットと体積正則化を組み合わせることで、ターゲット キューと入力 3D オブジェクトへの忠実度を達成できることを実証します。また、2D クロスアテンション マップが 3D 空間で位置特定を実行できることも示します。私たちの方法が、最新技術にとっては困難な、ローカル編集とグローバル編集の両方を生成できることを示します。私たちの取り組みにより、専門家でなくてもテキスト プロンプトを入力として使用するだけで 3D オブジェクトを簡単に変更できるようになり、3D コンテンツの作成と編集を民主化するという目標に近づくことができます。