[論文分析] 堅牢なテキストから 3D への生成のための 2D 拡散のバイアス除去スコアとプロンプト

ここに画像の説明を挿入
論文:https://arxiv.org/pdf/2303.15413.pdf

概要

ここに画像の説明を挿入

2. スコア蒸留とヤヌス問題

密度関数:: 均一にサンプリングされた視点 Π とユーザー プロンプト ω のセットが与えられた場合。
ここに画像の説明を挿入

この定式化を使用することで、[27](スコア ヤコビアン チェーン: 3D 生成のための事前学習済み 2D 拡散モデルのリフティング)とは対照的に、Jensen の不等式の使用を回避します。

方程式の各辺に対数を適用すると、次のようになります。

ここに画像の説明を挿入
連鎖則を使用すると、次の結果が得られます。
ここに画像の説明を挿入
ここで、 Z = |Π| は定数です。括弧内の項は、実際には拡散モデルによって推定されます。

これは、次のようにベイズ規則を適用することでさらに拡張されます。
ここに画像の説明を挿入

  • 最初の勾配項は、2D 拡散モデル [5、25] によってモデル化された無条件スコアを反映しており、zθ にノイズが多い場合の初期の 3D 最適化中に特定の視点から近くで見た画像に影響を与えるバイアスを含んでいます。
  • 式のポーズプロンプト勾配。4 は、特定のカメラ ポーズとユーザー プロンプトをより適切に表現するためにレンダリングされたイメージを駆動するガイダンス [3、6、7、25] です。この用語はさらに拡張されます。
    ここに画像の説明を挿入
    ここで、C は次のように定義されます。 これは、点ごとの条件付き相互情報量 (PCMI) を表します。
    ここに画像の説明を挿入
    ここに画像の説明を挿入

図 2. フレームワークの図。視点に関する 3D パラメータのロバストで不偏な勾配を推定するための、プロンプトおよびスコアのバイアス除去手法を提案します。

3. スコアのバイアス除去

ここに画像の説明を挿入

図 3 。この視覚化は、誤った 2D スコアが重大なアーティファクト (この図では追加の脚、くちばし、角など) を引き起こすことを示しています。

無条件スコアの場合、用語は特定の視点方向に偏っていることになります。連鎖ルール(式 3)を通じて、生成されたオブジェクトの 3D 一貫性とリアリズムに悪影響を与える可能性があります。

ユーザー プロンプトのグラデーションの大きさが大きい場合も、3D フィールドからレンダリングされたイメージには存在しないテキスト関連のアーティファクトが発生し、問題が発生する可能性があります。

このようなアーティファクトには、余分な顔、くちばし、角 (図 1 および図 3 を参照) が含まれており、非現実的であるか、3D オブジェクトの構造と矛盾しています。

したがって、アーティファクトを軽減し、生成された 3D オブジェクトのリアリズムを向上させるには、この勾配を調整する必要があります。ただし、3D フィールドに流入する 2D バイアスは、最適化と 3D の一貫性を高めるためにほとんど定式化または調整されていません。

2D から 3D スコアの動的なしきい値処理。

予測された 2D スコアにおけるバイアスとアーティファクトの影響を軽減するために、スコアを動的に切り捨てる効果的な方法を提案します。具体的には、最適化全体を通じて切り捨て値を線形に増加させます。
ここに画像の説明を挿入
ここに画像の説明を挿入

4. 迅速なバイアス除去

言語モデルを利用して矛盾を特定する。

プロンプト勾配項は、式 1 から導出できるように、生成された 3D オブジェクトのビューの一貫性に必要な姿勢勾配項を打ち消す可能性があります。5

ここに画像の説明を挿入

図 4. 矛盾のあるテキスト プロンプトが表示された Stable Diffusion [18] のサンプル。プロンプトに「背面図」が示されているにもかかわらず、プロンプト内の「笑顔」という単語により、拡散モデルはオブジェクトの正面図に偏ってしまいます。

私たちは、マスク言語モデリング (MLM) でトレーニングされた言語モデルを使用して矛盾を特定する方法を提案します。具体的には、V を可能なビュー プロンプトのセットを表し、U をサイズ 2 のセットとし、簡潔にするためにユーザー プロンプト内の単語の有無を含めます。次に、以下を計算します。
ここに画像の説明を挿入
P (u) はユーザー定義の忠実度です。P (u) = 1 の場合、その単語はユーザー プロンプトから削除されません。
方程式 次の理由から、7 は点ごとの相互情報量 (PMI) と等しくなります。

ここに画像の説明を挿入

ビュー プロンプトとオブジェクト空間のポーズ間の不一致を軽減します。

「正面図」の方位範囲を半分に減らすなど、視野プロンプトの範囲に実際的な調整を加えます。さらに、改善された結果をもたらす正確なビュー プロンプト [16、27] を検索します。

5. ベースラインとの比較

図 1 の定性的結果に示されているように、私たちの方法は 3D オブジェクトのビューの不一致を減らし、いわゆるヤヌス問題を軽減します。この改善では、ベースラインと比較してオーバーヘッドがほとんどありません。

ここに画像の説明を挿入

図 1. ベースライン (SJC [27]) と我々のベースラインの比較。当社のバイアス除去手法は、ゼロショット テキストから 3D へのビューの不一致と、いわゆるヤヌス問題を定性的に軽減します。

表 1 に示すように、70 個のプロンプトに基づいて、私たちの方法はベースラインよりも一貫した 3D オブジェクトを生成します。プロンプト内の矛盾を取り除くと、より良い結果が得られることに注意してください。

ここに画像の説明を挿入

表 1. 定量的評価。最良の値は太字で示され、2 番目に良好な値には下線が付けられています。保存とは、ユーザー プロンプトが保存されることを意味します。つまり、すべての u に対して P (u) = 1 です。

ここに画像の説明を挿入

図 5. プロンプトとスコアのバイアス緩和によるビューの一貫性の向上。ベースラインはオリジナルの SJC [27] であり、Prompt と Score はそれぞれプロンプトとスコアのバイアス緩和を示します。与えられたユーザー プロンプトは「笑っている猫」であり、画像は任意の視点からレンダリングされます。

図 5 は、意図したとおりにビューの一貫性が徐々に向上し、アーティファクトが減少することを示しています。

結論

この論文では、ゼロショット テキストから 3D への生成におけるヤヌス問題の原因を定式化し、特定します。この観点から、プロンプトと生の 2D スコアのバイアスを軽減することが現実的な生成には不可欠であると主張します。したがって、品質を向上させ、3D 監視なしでほとんどオーバーヘッドなく既存のフレームワークに適用できる 2 つの方法を提案します。これは、この有望な分野での将来の研究の可能性を示しています。

おすすめ

転載: blog.csdn.net/NGUever15/article/details/129981320