97、Text2NeRF: ニューラル放射フィールドを使用したテキスト駆動の 3D シーン生成

導入

論文アドレス
ここに画像の説明を挿入します
拡散モデルを使用してテキスト関連の画像をコンテンツ事前分布として推定し、単眼奥行き推定方法を使用して幾何学的事前分布を提供し、プログレッシブ シーンを導入します。 描画と更新異なるビュー間でテクスチャとジオメトリの一貫性を確保するための戦略

実装プロセス

ここに画像の説明を挿入します
簡単な言葉で:

テキストと画像の拡散モデルにより初期画像が生成されます I 0 I_0 0 ,将 I 0 I_0 0 歪み、同じ Z 平面の複数の写真を取得します。つまり、サポート セット S 0 S_0 S0 ,注意,这里的 S 0 S_0 S0 是由 I 0 I_0 0 は歪んでいるのでギャップが多いですが、 S 0 S_0 に従って計算できます。S0 初期の NeRF モデルを再構築します。

初期 NeRF モデルを使用して、新しいパースペクティブ画像をレンダリングします。これは不完全ですが、拡散モデルによって完成させることができます。シーンの一貫性を維持するために、パースペクティブは I 0 I_0 0 の隣に小さなオフセットを指定すると、拡散モデルが I 0 I_0 から可能な限り移動できるようになります。0 そこから情報を取得すると、NeRF モデルを更新できます。

画像の歪みの影響により、画像スケールのギャップと距離のギャップが必然的に生じます(異なる視角での空間点の深さの違いに反映されます)。この目的のために、深い調整戦略が採用されます。

サポートセット

DIBR (3D TV における新しいアプローチのための深度画像ベースのレンダリング (dibr)、圧縮、送信) を採用メソッド生成 S 0 S_0 S0

具体的には:
拡散モデルから初期画像を取得します I 0 I_0 0 し、深度予測ネットワークを通じて深度を取得します D 0 D_0 D0 ,对于 I − 0 I-0 0 の各ピクセル q とその深度 z を次の式で変換し、 S 0 S_0 S0
ここに画像の説明を挿入します
K K K P i P_i Pi はビュー i の固有行列とカメラのポーズです。

为了在大视野范围内生成3D场景,将相机位置设置在辐射场内部,并使相机向外看,但是该方法不能像其他设置相机查看内部的方法那样生成单独的3D对象。

現在のカメラ位置を使用 P 0 P_0 P0 を中心として、同じ z 座標で半径 r の周囲の円を生成し、カメラ位置として n 点を均一にサンプリングし、現在のビューと同じカメラ方向を使用して、集中をサポートするワープされたビューを生成します。一般的には r= 0.2、n=8、オフセット方向は通常、上、下、左、右、左上、左下、右上、右下です。

この時点で、初期 3D モデルの再構築を開始できます。

テキスト駆動の修復

初期ビューを除く I 0 I_0 0 レンダリング結果の外側にあるレンダリング結果では、コンテンツが欠落することは避けられませんが、このとき、事前にトレーニングされた拡散モデルに基づくテキスト駆動型の画像充填方法を使用できます。

まず、新しいパースペクティブをレンダリングします P 1 P_1 P1 图像 I k R I^R_k kR ,通过对比 I 0 I_0 0 ツイストトゥ P 1 P_1 P1 后的图像和 I k R I^R_k kR 、マスク M k M_k を取得します。Mk 。そしてそれを拡散モデルに投げ込み、シーン情報を拡張します。
ここに画像の説明を挿入します
ただし、拡散モデルの生成品質は必ずしも良好ではないため、複数の描画プロセスを使用してCLIPの画像エンコーダを評価し、完成画像と初期画像のギャップを比較し、そして最適なものを選択します。この論文では 30 人の候補者を使用しています。
ここに画像の説明を挿入します

深さの調整

完成したイメージと最初のイメージでは、重なり合う部分に奥行きの競合が生じます。これは次のように反映されます:
ここに画像の説明を挿入します
スケール ギャップ: 画像内のソファと壁に対応する空間点間の距離は一意である必要がありますが、異なる場合があります。異なるビューの違い 異なるビューによって適合された空間点が一致していません
距離ギャップ:

この論文では、平均スケールと距離の差を補正することにより、2 つの深度マップをグローバルに位置合わせします。

はレンダリングされたイメージと完成したイメージに対応し、 { ( x j R , x j E ) } j = 1 M \{(x^R_j,x^E_j) として表されます。 \ }^M_{j=1} {(xjR バツjE )}j=1M 、平均スケール分数 s と深さオフセット δ を計算して、平均スケールと距離の差を近似します。

ここに画像の説明を挿入します

スケール点 x ^ j E = s ⋅ x j E \hat{x}^E_j = s \cdot x^E_j バツ^jE =sバツjE 、z(x) は予測深度を表します。

グローバル深度はここで定義されます D k g l o b a l = s ⋅ D k E + δ D^{global}_k = s \cdot D^E_k + \delta Dkglobal =sDkE +δ、グローバル深度に近いレンダリング深度を最小化します
ここに画像の説明を挿入します

プログレッシブ修復と更新

ここに画像の説明を挿入します
シーンのレンダリング プロセス中にビューの一貫性を確保し、ジオメトリと外観の曖昧さを回避するために、プログレッシブ レンダリングおよび更新戦略が採用され、ビューごとに輝度フィールドが更新されます。

完了するたびに明るさフィールドを更新します。これは、以前に描画された内容がその後のレンダリングに反映され、これらの部分は既知の領域とみなされ、他のビューでは再度描画されないことを意味します。

(夢のフィールドを使用したゼロショットのテキストガイドによるオブジェクト生成)からインスピレーションを得て、深度感知の伝送損失が設計されました L T L_T LT 、カメラ レイが予想される深度に達する前に NeRF ネットワークにヌル密度を生成するように指示します。
ここに画像の説明を挿入します
m(t) はマスクです。t< z ^ \hat{z} ^ 时,m(t) = 1,否则为0, z ^ \hat{z} ^是对齐深度图 D ^ \hat{D} D^ のピクセルごとの深度値、T (T) は累積透過率

効果

ここに画像の説明を挿入します
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/weixin_50973728/article/details/134574612