最近の AIGC コミュニティでは、3D ビジュアル生成の分野がますます注目を集めており、 Neural Radiation Fields (NeRF)に基づくディープ レンダリング ネットワークにより、 驚くべき 3D 効果が実現されています。ただし、NeRF は監視として多数の多視点画像を必要とするため、単一の 2D 画像から 3D 再構成することは依然として非常に困難です。この記事では、KAUST、オックスフォード大学 VGG グループ、Snapchat の作品 Magic123 (One Image to High-Quality 3D Object Generation using Both 2D and 3D diffusion Pirors) を紹介します。Magic123 は、2 段階の粗いから細かい 3D 生成フレームワークであり、2D と 3D の両方のビジュアル事前分布を使用して、単一の画像から 3 次元再構成を実行することを提案しています。下の図は、Magic123 と他のベースライン手法との比較を示しています。
著者は、展示用にテディベア、ドラゴンの像、馬、カラフルなティーポットの 4 つのオブジェクトを選択しました。Magic123 の 3D 再構成効果は比較的完全で、対応する実際のオブジェクトの 3D 形状およびテクスチャと非常に一致していることがわかります。比較のための 2 つの最新の方法、Neural Lift[1] と RealFusion[2] (どちらも CVPR2023 で公開) には、オブジェクトの 3D 形状とテクスチャの詳細の制御に特定の欠陥があります。その中で、Neural Li馬の頭2頭分のウーロン効果さえも生み出しました。Magic123 は、主に次の 2 つの点により、より良い結果を生み出すことができます。
- 著者らは、2D と 3D の両方の事前分布を使用してモデルを推進し、再構築の想像力と 3D の一貫性の間のバランスを達成し、より優れた一般化能力を備えています。
- 2 段階のトレーニング: 第 1 段階では、著者は NeRF ネットワークを最適化して大まかな幾何学的形状を生成し、第 2 段階では、これがテクスチャリッチな高解像度 3D メッシュに継続的に改良されます。
論文リンク:
https://arxiv.org/abs/2306.17843
プロジェクト アドレス:
https://guochengqian.github.io/project/magic123
コード ウェアハウス:
https://github.com/guochengqian/Magic123
I.はじめに
人間は通常 2D の方法で世界を観察しますが、人間の脳は非常に強力な 3D の想像力と推論能力を持っています。人間の脳の三次元推論能力をどのようにシミュレートするかは、三次元視覚研究の分野でホットな問題です。3D 画像合成モデルは、3D オブジェクトの生成中に、元のオブジェクトのジオメトリとテクスチャの詳細を可能な限り保存する必要があります。しかし、単一の画像のみを使用して 3D 再構成を行う現在の手法には依然としてパフォーマンスのボトルネックがあり、その主な原因は次の 2 つであると著者は考えています: (1) 既存の手法は通常、大規模なラベル付き 3D データセットに依存しているため、未知の領域でのモデルの汎化能力が制限されています。(2) 既存の手法では、3D オブジェクトの生成の詳細と3D データを処理する際のモデルの計算リソースとの間で適切なトレードオフを行うことが困難です。以下の図に示すように、著者は 3 つの異なる 3D 復元状況としてテディベア、ドーナツ、ドラゴン像を使用していますが、テディベアは比較的一般的であるため、モデルは 3D 事前学習だけで適切に復元できます。左下の龍の像は、アノテーションが限定された 3D データセットでは要件を満たせなくなり、生成された幾何構造は 3 次元の一貫性はあるものの、詳細が不足しています。
3D 生成モデルと比較すると, 2D 画像生成モデルの開発は明らかに高速かつ完全です. 既存の 2D 生成モデルはトレーニングに大量のテキスト注釈付き画像を使用しており, これにより広範囲の画像セマンティクスをカバーできます. したがって, 3D コンテンツを生成するための事前処理として 2D モデルを使用することは、DreamFusion [6] などの非常に一般的な方法となっています。しかし、著者は、2D 事前分布に完全に依存すると、ヤヌス問題 (複数の面の生成)、さまざまな視点からのオブジェクトのサイズやマテリアルの不一致など、深刻な 3D の不一致が生じることを発見しました。したがって、この記事のMagic123は、3D事前と2D事前を同時に使用し、それらの間にトレードオフパラメータを設定して、3Dモデル生成効果を動的に調整するという目的を達成することを提案します。さらに、著者は、従来の NeRF が大量のビデオ メモリを占有するため、モデルによってレンダリングされる画像の解像度が低くなり、3D 生成の詳細に影響を与えることを発見しました。そのため、著者は、Magic123 の第 2 段階でメモリ効率の高いハイブリッド 3D グリッド表現を導入し、生成されるオブジェクトの幾何学的テクスチャと詳細を洗練しながら、最終生成解像度を 1K に高めることができました。
2. 本稿の手法
Magic123 は、2D および 3D 画像生成の事前拡散を総合的に考慮し、1 枚の画像から 3D 再構成を粗いから細かいまでの 2 段階の形式で完了するものであり、Magic123 の全体的な枠組みは下図に示されています。
2.1 粗動ステージ
上図の左半分に示すように、Magic123 の大まかな生成段階です。プロセスでは、モデルは画像の基本的な幾何学的構造の最適化に焦点を当てます。このプロセスでは主に NeRF が生成に使用されます。Magic123 はまず、事前にトレーニングされたセグメンテーション モデル Dense Prediction Transformer [3] を展開して、指定された 1 つの画像から前景オブジェクトを抽出します。また、大まかな段階では、NeRF合成に必要な画像再構成の監視、新たな透視画像の誘導、3Dオブジェクト生成のための深度事前分布、NeRF自身のアーティファクト合成の欠陥などの要素を総合的に考慮しました。そして、これらの要因に従って、モデル全体を共同で最適化するために、対応する損失関数がそれぞれ設計されます。
2.2 ファインステージ
NeRF には膨大な計算オーバーヘッドがあり、アーティファクト ノイズが入りやすいため、粗段階では低解像度の半完成 3D モデルしか生成できません。Magic123 の詳細な段階では、NeRF 合成のメモリ効率を大幅に最適化するハイブリッド SDF-Mesh 表現、つまり DMTet[4] が採用されています。著者は、リソース効率の高い以前の NeRF 代替プログラム Instant-NGP は 16GB メモリの GPU で 128128 の解像度しか達成できないと述べましたが、本稿の Magic123 フレームワークは、DMTet のサポートにより、1 つの解像度で高精度 3D モデルを容易に合成できます。 1Kの。
2.3 以前の 2D と以前の 3D の間のトレードオフ
Magic123 で以前に参照された2D 画像は、安定拡散のスコア蒸留サンプリング損失 (スコア蒸留サンプリング、SDS) から来ています。SDS は主に画像の拡散プロセスに作用します。最初にレンダリングされたビューを潜在空間にエンコードし、それに一定量のノイズを追加し、入力テキスト プロンプトに従ってノイズ除去された新しいビューを予測します。SDS は、レンダリングされたビューのコンテンツとテキスト プロンプトの間にブリッジを構築します。SDS 損失は次のように定義されます。
著者はその後、画像合成のプロセスにおいて、2D 事前と 3D 事前の使用が実際には補完的であることを発見しました。2D 事前は強い想像力を持ち、モデルに幾何学的空間を探索させる能力がありますが、生成される 3D モデルの幾何学的形状が不完全になりますが、3D 事前はこの欠陥を補うことはできますが、汎用性が低く、幾何学的詳細が欠けています。したがって、著者は、この 2 つを比較検討したアプリオリな損失を提案します。
3. 実験結果
本稿の実験はNeRF4とRealFusion15の2つのデータセットで実施されており、評価指標にはPSNR、LPIPS、CLIP類似度が使用され、前者2つは再構成された画質と生成された効果の知覚的類似性を測定するために使用され、後者は主にCLIPモデルによって計算された外観類似度を使用して生成されたコンテンツの3D一貫性を測定します。筆者は、Zero-1-to-3、Neural Lift、RealFusion を含む 6 つの手法を比較のために選択し、3D 合成エフェクトのパフォーマンス比較を次の表に示します。
4. まとめ
この論文では、粗いから細かいまでの 2 段階の 3D 合成 Magic123 フレームワークを提案します。Magic123 は、単一のランダムビュー画像からのみ、テクスチャの詳細を備えた高品質の 3D モデルを生成できます。Magic123 は、モデル内の 2D と 3D の拡散事前分布を重み付けすることで、既存の 3D 合成フレームワークの制限を克服します。この論文で提案されている 2D と 3D のトレードオフ パラメータを使用すると、ネットワークが 2D ジオメトリと 3D形状制約の間の動的なバランスを探索できるようになり、モデルが3D 合成プロセス中にオブジェクトの多様性と特殊な 3D テクスチャと詳細を考慮できるようになります。
参考
[1] Dejia Xu、Yifan Jiang、Peihao Wang、Zhiwen Fan、Yi Wang、Zhangyang Wang。Neurallift-360: 自然界の 2D 写真を 360{\deg} ビューの 3D オブジェクトに持ち上げます。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、2023 年 [2] Luke Melas-Kyriazi、Christian Rupprecht、Iro Laina、Andrea Vedaldi。Realfusion: 単一の画像からあらゆるオブジェクトを 360{\deg} 再構築します。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、2023 年。[3] ルネ・ランフトル、アレクセイ・ボチコフスキー、ヴラドレン・コルトゥン。高密度予測のためのビジョントランスフォーマー。IEEE/CVF International Conference on Computer Vision (ICCV) の議事録、12159 ~ 12168 ページ、2021 年。[4] Tianchang Shen、Jun Gao、Kangxue ying、Ming-Yu Liu、Sanja Fidler。ディープマーチング四面体: 高解像度の 3D 形状合成のためのハイブリッド表現。『Advances in Neural Information Processing Systems (NeurIPS)』、第 34 巻、6087 ~ 6101 ページ、2021 年。[5] ルオシ・リュー、ルンディ・ウー、バジル・ヴァン・フーリック、パーベル・トクマコフ、セルゲイ・ザハロフ、カール・ヴォンドリック。Zero-1-to-3: 1 つの画像を 3D オブジェクトにゼロショットします。arXiv プレプリント arXiv:2303.11328、2023.[6] ベン・プール、アジェイ・ジェイン、ジョナサン・T・バロン、ベン・ミルデンホール。Dreamfusion: 2D 拡散を使用したテキストから 3D への変換。学習表現に関する国際会議 (ICLR)、2022 年。そしてベン・ミルデンホール。Dreamfusion: 2D 拡散を使用したテキストから 3D への変換。学習表現に関する国際会議 (ICLR)、2022 年。そしてベン・ミルデンホール。Dreamfusion: 2D 拡散を使用したテキストから 3D への変換。学習表現に関する国際会議 (ICLR)、2022 年。
作者: seven_
IconScout の IconScout Store によるイラスト