AAAI 2023| One is All: 異なる NeRF シリーズ構造間の簡単な移行!

7830372d9be93b34a5b47fc1e5f5f9f5.png

論文リンク: https://arxiv.org/abs/2211.15977

オープン ソース コード: https://github.com/megvii-research/AAAI2023-PVD

6e72698d27178a8a3af3907b6b7992e5.png

1.はじめに

Neural Radiative Field (NeRF [1]) アプローチは、効率的で高品質の 3D シーン表現であることが証明されており、編集、検索、ナビゲーションなどのダウンストリーム タスクをサポートします。現在、多層パーセプトロン (MLP)、スパース テンソル (スパース テンソル)、低ランク テンソル (低ランク テンソル)、ハッシュ テーブル (ハッシュテーブル) など、さまざまな構造が NeRF のコア表現をめぐって競合しています。組み合わせ。これらの表現には現在、ある程度のトレードオフがあります. たとえば、ハッシュ テーブルに基づく表現は、通常、トレーニングとレンダリングが迅速に行われますが、異なる解像度のハッシュ エイリアシング表現には、より明確な幾何学的構造が欠けており、ベースの編集操作などを妨げる可能性があります。空間関係認識について。

上記の問題を解決するために、MLP、スパースまたは低ランクテンソル、ハッシュテーブルなどの異なる構造間のペアワイズ変換を実現できるプログレッシブボクセル蒸留スキーム PVD ​​を提案します。したがって、PVD は、さまざまなダウンストリーム タスクに従って、既存のモデルを新しい構造表現に適合させることができます。PVD はさまざまなレベルの表現で段階的に実行され、この浅いものから深いものへのアプローチにより、構造間の移行が非常に高速になります。たとえば、PVD を使用してハッシュ テーブル ベースの Instant-NGP モデルを MLP ベースの NeRF モデルに変換すると、MLP を最初からトレーニングするよりも 10 倍以上高速になり、同等またはそれ以上のレベルの画像合成品質を実現できます。

2.背景

Novel View Synthesis (NVS) は、3D シーンの未知の位置と視点でリアルな 2D 画像を生成することを指し、幅広いアプリケーション シナリオがあります。NeRF [1] の出現により、この問題および関連する問題の研究プロセスが大幅に加速されました。NeRF は MLP を使用して座標空間から 3D シーンを構築します. MLP の入力は 5D 座標 (空間位置 + 視線方向) であり、出力は対応する空間点の密度と色です. インプリシット モデリングの利点は、その表現が NeRFW[2] などのシーンのテクスチャのような属性や DNeRF[3] などのタイミング属性を制御または変更するのに役立つことです。つまり、3D を実行するのは比較的簡単です。シーン アート デザインとダイナミック シーン デザイン。しかし、MLP ベースの NeRF では、空間ポイントの密なサンプリングが必要なため、トレーニングと推論中に MLP への複数のクエリが発生し、動作が遅くなります。

明示的および混合形式に基づく表現は、完全に MLP に基づいて NeRF の実行速度が遅い問題をある程度解決します。たとえば、Plenoxels[4] は完全な明示的表現によってシーンを 3D グリッド上に直接配置し、グリッド上の各ボクセルは密度と色に関連する情報を格納します。Plenoxels には MLP 構造がないため、空間内の任意の点の情報を取得するには、グリッド ボクセルに格納された情報を補間するだけで済みます。このアプローチにより、Plenoxels のトレーニングと推論の時間が大幅に短縮されます。純粋に明示的な構造に基づく表現は、CCNeRF [5] などの複数のシーンのマージ、場所固有のオブジェクトの修復と操作などを含む、空間位置情報に基づくシーン ジオメトリの編集に役立ちます。Plenoxels の大きな欠点は、モデル パラメータの数が多すぎることと、その最終的な効果がグリッドの解像度に大きく依存することです。

上記の純粋に暗黙的な表現と純粋に明示的な表現に加えて、いくつかの混合表現も現れ始めています。たとえば、最近、低ランクのテンソル近似アルゴリズムに触発された TensoRF [6] は、明示的なテンソルを低ランクのコンポーネントに分解し、モデル サイズを大幅に縮小します。INGP[7] は、異なるスケールのカスケード ハッシュ テーブルを通じて特定の座標を一連の特徴にマッピングし、小さな MLP を使用して特徴を密度と色に解釈する多解像度ハッシュ コーディング (MHE) を提案しています。低ランクのテンソルと MHE は、モデルのメモリ フットプリントを大幅に削減し、推論速度を向上させます。ただし、低ランク テンソルと MHE のコンパクトさは直感的でない幾何学的解釈を犠牲にしており、後で導入された小さな MLP は特定の幾何学的解釈を失い、複数の低ランク テンソルの混合とハッシュ テーブル メカニズムのハッシングにより、多くの空間エイリアシング。

どの構造が最も適切な表現であるか、決まった答えはありません。さまざまなダウンストリーム タスクには、さまざまなタイプの構造が必要です。したがって、この記事では異なる構造間での転送を試みますが、転送方法を紹介する前に、その利点を考慮する必要があります。

(1) このタイプの研究は、すでに豊富で成長している NeRF アーキテクチャ グループのモデリング機能と制限への洞察を提供します。これらの構造に関する現在の研究は独立しており、この方法では、各構造の利点を十分に発揮し、その欠点を回避することはできません。

(2) この変換の可能性により、設計者は事前にモデル構造を設計する負担から解放されます。これは、訓練されたモデルを目的の構造にすばやく変換して、その後の継続的なアプリケーション シナリオのニーズを満たすことができるためです。

(3) 教師と生徒が異なる属性を持っている場合、両者は効果的に補完し合い、より強い表現力を持つモデルを得ることができます。たとえば、ハッシュで表される教師モデルを使用してテンソルで表される生徒モデルを取得する場合、教師のトレーニング速度の高速化とパフォーマンスの向上を利用して、幾何学的構造が明確でパフォーマンスの高い生徒モデルを取得できます。

3. 方法

27ba9e4339113becc0232eb563ed6a60.png

図に示すように、教師と生徒が与えられた場合、それを と の 2 つの部分の表現に統合し  ます  。蒸留プロセスは3つのsに分けられます tage、stage1 はサブネットワークにのみ転送されます 。stage2 は pre-render 部分にのみ転送されます。stage3 はすべての情報をトレーニングに使用します。この方法は、MLP 構造を繰り返し照会するためにかかる膨大な時間を効果的に短縮し、変換時間を効果的に短縮します。また、その過程で濃度などの情報の値域を制限する必要があります。

私たちのアプローチは、神経放射フィールドの異なるアーキテクチャ間の相互変換を可能にすることを目的としています。このようなアーキテクチャの数が増えているため、すべての変換を試すことはできません。そのため、この記事では主に、NeRF の MLP、Plenoxels のスパース テンソル、および 2 つのハイブリッド表現 (INGP と低のハッシュ テーブル) を含むいくつかの一般的な構造間の変換に焦点を当てています-TensoRF のランク テンソル (VM 分解)。まず、異なる構造の表現を統一された形で分割し、次にこの統一されたビューに基づいて蒸留スキームを設計します。

3.1 統一されたビューのデザイン

実験では、光線に対応する RGB と、光線のサンプリング ポイントに対応する密度と色のみが抽出に使用される場合、MLP 全体を完全にクエリする必要があり、非効率的であることがわかりました。この目的のために、異なる構造間で情報を調整する追加の中間機能を設計します。ハイブリッド表現の暗黙的構造と明示的構造は、さまざまな学習目標に対応して自然に分離されていることがわかります。そのため、すべての形式のモデルをこの 2 つの部分の表現形式に分割することを検討します。具体的には、 model が与えられた場合、それらを 2 つのモジュールのカスケードとして表し、各構造の分割を次の表に示します。

59a52465be10d1abe622269f1cf5f64a.png

統合パースペクティブ アーキテクチャの 2 レベル分割方式

ここで * は、教師または生徒になります。ハイブリッド表現の場合、明示的な部分を として、暗黙的な部分を として直接扱います。一方、純粋に暗黙的な MLP の場合、ネットワークをその深さに応じて 2 つの部分に分割します。純粋に明示的な表現構造の場合、恒等写像を とすることにより、それを 2 つの部分で表現します。

3.2 損失設計

蒸留の最終段階で使用される損失は次のとおりです。

サブアイテムは、ボリューム調整された損失、密度損失、色損失、RGB 損失、正則化損失を順番に表します。正則化項は、Plenoxels や VM 分解など、主にスチューデント モデルの形式に依存し、正則化項はスパース損失と TV 損失です。プレノクセルでは、密度、色、RGB、正則化の損失のみを実行することに注意してください。

3.3 密度範囲の制約

密度損失項を直接最適化するのは難しいことがわかりました。この問題は、特定の数値不安定性に起因すると考えられます。つまり、密度は、空間内の点の光透過率を反映することができます。密度が特定の値より大きくても小さくても、その物理的な意味は基本的に同じです (つまり、完全に透明または完全に不透明)。したがって、密度の値の範囲が大きすぎると、密度値の 1 つの間隔のみが重要な役割を果たし、重要な値の外側の部分がその最適化に深刻な影響を与えます。したがって、密度損失を実際に計算するときは、その値の範囲で間隔セグメントのみを最適化します。

3.4 ブロック単位の蒸留

蒸留は3段階に分けられます。stage1 はサブネットワークにのみ転送され、stage2 は事前レンダリング部分にのみ転送され、stage3 はすべての情報をトレーニングに使用します。この方法は、MLP 構造を繰り返し照会するためにかかる膨大な時間を効果的に短縮し、変換時間を効果的に短縮します。

4.実験

4.1 交換結果

71243162f86ce747e6e96cb3b697a29a.png

LegoシーンでHash/VM分解/MLP/sparse tensor間の相互変換を行った定量的・定性的な結果。構造ごとに教師モデルをトレーニングし、それを使用して 4 つの構造の生徒モデルを抽出します。図の数字は PSNR を表します。「s-」は学生を意味します。

118b0264027e39c74e5fb5d8707fa0f9.png

NeRF-Synthetic データセット上の異なる構造間の交換結果。

4 つの表現 (ハッシュ/VM 分解/MLP/スパース テンソル) について、まず NeRF-Synthetic データセットの 8 つのシーンで各構造のモデルを最初からトレーニングし、合計 32 個のモデルを教師として取得します。次に、このホワイト ペーパーで提案されている PVD ​​を使用して、これらの教師に対して 4 つの変換を実行し、128 の生徒モデルを取得します。変換が完了したら、平均インジケーター (上) と視覚効果 (上) をカウントします。私たちの方法は、異なる構造間の変換に非常に効果的であることがわかります。あるモデルが別の形式に変換される場合、生徒のパフォーマンスと教師のパフォーマンスの差は小さく、放射場に基づく異なる構造表現間の相互変換を完全に示しています。さらに、LLFF および TanksAndTemples データセットに対して同様の実験を行い、元の論文の方法を使用してゼロからトレーニングした結果と比較すると、結果は、私たちの方法が依然として同等のパフォーマンスを持っていることを示しています。

f861bdee8ad90ec1749c81a8f3208fa7.png

LLFF および TanksAndTemples データセットでゼロからモデルをトレーニングした効果と、私たちの方法で抽出されたモデルとの比較。

4.2 収束の加速と性能向上

4f207fa6e46c9d01e24b8330f925fa51.png

左側は PVD ​​によって 1.5 時間で抽出された NeRF モデルの結果です (教師としての INGP)。右はゼロから25時間のNeRFトレーニングの結果です。PVD は効果的に合成品質を向上させ、トレーニング時間を短縮します。

347567575acdfbd4896c586a82cf7670.png

NeRF をゼロからトレーニングする方法と、この論文の方法を使用して NeRF を抽出する方法の時間とパフォーマンスの比較。

上の図と表からわかるように、より高性能な構造を教師として使用すると、私たちの方法は生徒モデルのトレーニング時間を大幅に短縮し、生徒モデルのパフォーマンスを向上させることができます。これまで、同じ構造間での蒸留 (パラメータ数の多い NeRF モデルからパラメータ数の少ない NeRF モデルへの蒸留) のプロセスは、非常に非効率的でした。トレーニングおよび蒸留中のパラメーターの数。異種フォーム間の蒸留により、教師に効率的にクエリを実行し、より高速な蒸留を実現できます。

4.3 アブレーション実験

bc07ff1ca3e86c3b5c848f086cc75231.png

NeRF-Synthetic データのアブレーション実験 (VM 分解と MLP への蒸留)。

486c6f126215e9b3735739fdacf02c77.png

密度範囲の制限がある場合とない場合の蒸留結果の比較。

アブレーション実験は、私たちの方法における各コンポーネントの必要性を示しています。

4.4 機種制限

a7e9c018699c96f8b8753620e7fdb76c.png

合成 NeRF データセットの相互変換 PSNR ギャップ。PSNRstu は、蒸留によって得られた生徒の PSNR を表します。PSNRself は、ゼロからトレーニングされた PSNR を表します。PSNRtea は教師の PSNR を表します。

生徒のパフォーマンスは、主に 2 つの側面によって制限されていることがわかります。1 つは教師のモデリング能力であり、もう 1 つは生徒のモデリング能力です。教師の能力が高い場合、生徒の最終的なパフォーマンスを向上させるのに役立つことがよくあります (教師としてのINGPと生徒としてのMLPなど); 2つの能力が等しい場合、2つの最終的なパフォーマンスは類似しています (など)学生の能力が強い場合、学生のパフォーマンスは教師の能力によって制限されます (たとえば、MLP は教師であり、INGP は学生です)。生徒をさらに微調整して、パフォーマンスを向上させることができます。

V. まとめ

この作業では、高い合成品質を維持しながら、異なる NeRF アーキテクチャ (MLP、スパース テンソル、低ランク テンソル、およびハッシュ テーブルを含む) 間の変換を可能にする体系的な蒸留法 PVD ​​を提案します。PVD の成功の核心は、統一された構造的視点の表現、損失関数の設計、漸進的蒸留スキーム、および密度値の特別な処理です。異なる構造間の障壁を取り除くことにより、PVD はダウンストリーム タスクを既存のモデルで簡単に処理できるようにします。実験は、合成データセットと実際のデータセットの両方に対する私たちの方法の有効性を示しています。

参考文献

[1] Mildenhall B、Srinivasan PP、Tancik M、他。Nerf: ビュー合成のためのニューラル放射輝度フィールドとしてシーンを表現する[J]。ACM の通信、2021 年、65(1): 99-106。

[2] Martin-Brualla R、Radwan N、Sajjadi MSM、他。Nerf in the wild: 制約のない写真コレクションのためのニューラル ラディアンス フィールド[C] //コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2021: 7210-7219.

[3] Pumarola A、Corona E、Pons-Moll G、他。D-nerf: 動的シーンのニューラル放射輝度フィールド[C] //コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2021: 10318-10327.

[4] Fridovich-Keil S、Yu A、Tancik M、他。プレノクセル: ニューラル ネットワークのない放射輝度フィールド[C] //コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2022: 5501-5510.

[5] Tang J、Chen X、Wang J、他。ランク残差分解による圧縮可能で構成可能なナーフ[J]。arXiv プレプリント arXiv:2205.14870, 2022.

[6] Chen A、Xu Z、Geiger A、他。Tensorf: Tensorial radiance fields[C]//Computer Vision–ECCV 2022: 第 17 回欧州会議、テルアビブ、イスラエル、2022 年 10 月 23 ~ 27 日、議事録、パート XXXII。Cham: Springer Nature Switzerland、2022: 333-350。

[7] ミュラー T、エヴァンス A、シード C、他。多重解像度ハッシュ エンコーディングを使用したインスタント ニューラル グラフィックス プリミティブ [J]。グラフィックに関する ACM トランザクション (ToG)、2022 年、41(4): 1-15。

論文リンク:

https://arxiv.org/abs/2211.15977

テクノロジーへの信頼、実用的な価値

Kuang Factory のパートナーは、どのような技術革新をもたらしますか?

一緒に楽しみましょう!

31df1c351d222ab493c3674cebe23423.gif

おすすめ

転載: blog.csdn.net/Megvii_tech/article/details/128979311