ER-NeRF

本稿では、少ないパラメータで高精度なリアルタイムレンダリングと高速な収束を実現できる新条件NeRFベースのトーキングポートレート合成フレームワークER-NeRFを提案する。高忠実度の話すポートレートを合成するための効率的な領域認識神経放射線場

拠点: 北京大学、グリフィス大学、理研AIP、東京大学

論文: https://arxiv.org/abs/2307.09323

コード: https://github.com/Fictionarry/ER-NeRF

概要

本稿では、少ないパラメータで高精度なリアルタイムレンダリングと高速な収束を実現できる新条件NeRFベースのトーキングポートレート合成フレームワークER-NeRFを提案する。私たちのアイデアは、空間領域の不均等な寄与を明示的に利用して、会話ポートレート モデリングをガイドすることです。具体的には、動的頭部再構成の精度を向上させるために、3 つの 2D ハッシュ エンコーダーを使用して空間領域を枝刈りすることにより、コンパクトで表現力豊かな NeRF ベースの 3 プレーン ハッシュ表現を導入します。音声オーディオの場合、領域注意メカニズムを介して領域認識の条件付き特徴を生成する領域注意モジュールを提案します。既存の方法は通常、MLP ベースのエンコーダを活用してオーディオとビデオのクロスモーダル関係を暗黙的に学習しますが、私たちの方法では、アテンション メカニズムを使用してオーディオ特徴と空間領域の間の明示的な接続を確立し、局所的な動きをアプリオリにキャプチャします。さらに、体の部分については、頭のポーズの複雑な変換を空間座標にマッピングすることで、頭と胴体の分離問題を最適化する、直感的で高速な適応ポーズエンコーディングを提案します。広範な実験により、私たちの方法は、忠実度が高くリップシンクで、リアルな詳細とより高い効率で会話ポートレート合成を行うタスクにおいて、以前の方法よりも優れていることが示されています。

図 1. 以前のアプローチとは異なり、MLP ベースのエンコーダを介して暗黙的なオーディオとビジュアルの関係を学習するのではなく、音声オーディオと空間領域の間のクロスモーダル相互作用に明示的に焦点を当てます。領域認識により、ER NeRF はより正確な顔の動きをレンダリングできるようになります。

1. はじめに

オーディオ駆動のトーキングポートレート合成は、デジタルヒューマン、仮想アバター、映画制作、ビデオ会議など、複数の潜在的なアプリケーションシナリオにとって重要かつ困難な問題です。過去数年間にわたり、多くの研究者が深い生成モデルを使用してこの課題に取り組んできました。最近、Neural Radiative Fields (NeRF) が、話すポートレートの音声駆動合成に導入されました。これは、深い多層パーセプトロン (MLP) を介して、オーディオの特徴から対応する視覚的な外観への直接マッピングを学習する新しいアプローチを提供します。それ以来、いくつかの研究が、オーディオ信号に対してエンドツーエンド方式で、またはいくつかの中間表現を通じて NeRF コンディショニングを実行して、特定の発話ポートレートを再構築してきました。これらの NeRF ベースの手法は合成品質において大きな成功を収めていますが、推論速度はリアルタイム要件を満たすには程遠いため、実際のアプリケーションは大幅に制限されます。

最近、効率的なニューラル表現に関するいくつかの研究では、MLP ネットワークの一部をスパース特徴グリッドに置き換えることにより、NeRF を超える大幅な高速化を達成しました。Instant-NGP は、静的シーン モデリングにハッシュ コード化されたボクセル グリッドを導入し、コンパクトなモデルで高速かつ高品質のレンダリングを可能にします。RAD NeRF は、このテクノロジーを初めてトーキング ポートレート合成に適用し、最先端のパフォーマンスを備えたリアルタイム レンダリング フレームワークを構築しました。ただし、RAD-NeRF では、地域のオーディオ アクション マッピングを暗黙的に学習するために MLP を備えた複雑なトレリス エンコーダが必要となるため、その収束速度と再構成の品質が制限されます。

このペーパーは、効率的で忠実度の高い会話ポートレート合成のための、より効率的なソリューションを探ることを目的としています。以前の研究に基づいて、さまざまな空間領域が、話すポートレートの外観に等しく寄与しないことに注目します。

(1) ボリューム レンダリングでは、動的な頭部の表現に役立つのは表面領域のみであるため、他のほとんどの空間領域は役に立たず、頭部の表面構造は比較的単純であり、枝刈りに効率的な NeRF 技術を使用する方法はさらに複雑になります。トレーニングの難易度を下げるために調査しました。

(2) 顔の異なる領域は音声オーディオとの関連性が異な​​るため、異なる空間領域は本質的に固有の方法でオーディオ信号に関連しており、固有のオーディオ駆動のローカルモーションを示します。

これらの観察に触発されて、我々は空間領域の不均等な寄与を明示的に利用してトーキングポートレートモデリングをガイドし、現実的かつ効率的なトーキングポートレート合成のための新しい効率的領域認識トーキングポートレートNeRF(ER-NeRF)フレームワークを提案します。 - 高品質のレンダリング、高速な収束、小さなモデル サイズでのリアルタイム推論。

この論文の貢献は主に次のとおりです。

(1) 効率的な 3 プレーン ハッシュ表現を導入して動的な頭部の再構築を容易にし、コンパクトなモデル サイズで高品質のレンダリング、リアルタイム推論、高速収束を可能にします。(2) 正確な顔の動きのモデリングのために、音声条件と空間領域の間の相関関係を捕捉するための新しい領域注意モジュールを提案します。

2. 方法

2.1 ハッシュ トライプレーン表現

最初の改善は、動的な頭部表現をターゲットとしています。RAD NeRF は、Instant-NGP を利用して話しているポートレートを表現し、高速推論を実現しますが、そのレンダリング品質と収束は、オーディオ駆動の 3D ダイナミック ヘッドをモデリングする際のハッシュ衝突によって妨げられます。この問題に対処するために、NeRF ベースの 3 平面分解を介して 3D 空間を 3 つの直交平面に分解する 3 平面ハッシュ表現を導入します。因数分解中に、すべての空間領域が 2D 平面上に圧縮され、対応する特徴グリッドが枝刈りされます。したがって、ハッシュ衝突は低次元部分空間でのみ発生し、その数は少なくなります。ノイズが少なくなると、ネットワークはオーディオ特徴の処理により多くの注意を払うことができるため、より正確な頭部構造とより微細な動的動作を再構築できるようになります。

図 3. 視覚化された占有グリッド。(a) オーディオ調整のない純粋に静的な 3D ハッシュ グリッド。(b、c) 3D ハッシュ グリッドと音声調整された 3 平面ハッシュ表現。ダイナミック モーションを同時に学習しながらオーディオ特徴を処理するように要求された後、3D ハッシュ グリッドの MLP デコーダーは過負荷を示しますが、私たちの表現は引き続き微細な表面を再構築できます。 

2.2 領域注意モジュール

音声などの動的な条件がポートレート全体に均一に影響を与えることはほとんどありません。したがって、自然な顔の動きを生成するには、これらの条件がポートレートのさまざまな領域にどのような影響を与えるかを理解することが重要です。これまでの多くの研究では、これを特徴レベルで無視し、相関関係を暗黙的に学習するためにコストのかかるメソッドをいくつか使用していました。ハッシュ エンコーダーに保存された多重解像度領域情報を活用することで、動的特徴と異なる空間領域間の関係を明示的にキャプチャする軽量の領域アテンション メカニズムを導入します。

図 4. 地域注目モジュールの視覚化。毛むくじゃらの髪などの不確実な詳細の影響を受けた場合でも、領域注意モジュールは、明示的な注釈なしで動的条件と空間領域間の関係を首尾よく捕​​捉します。

2.3 適応ポーズエンコーディング

図5。適応ポーズエンコーディング

頭と胴体の分離に対処するために、以前の研究 (RAD-NeRF、GeneFace) を改良しました。画像全体またはポーズ行列を条件として直接使用する代わりに、頭部ポーズの複雑な変換をより明確な位置情報を持ついくつかのキーポイントの座標にマッピングし、それらから暗黙的な胴体ポーズ座標を学習するように胴体 NeRF をガイドします。

3. 実験

3.1 定量実験

「自己駆動」設定と「異種オーディオ駆動」設定の両方で、私たちの方法は、NeRF ベースの方法よりも同時に推論速度モデルサイズトレーニング時間顔の動きの再構成リップシンクレンダリング品質

3.2 定性実験

ポートレート全体 (頭 + 胴体) を直感的に比較できるように、いくつかのビデオ キーフレームと 4 つのタスクの詳細を図 6 に示します。NeRF ベースの手法では、胴体部分を合成してポートレート全体を評価します。結果は、ER-NeRF が最高のパーソナライズされたリップシンク精度でより多くの詳細をレンダリングできることを示しています。Wav2Lip と PC-AVS は同期に関して高いスコアを達成していますが、生成された結果はグラウンド トゥルースとは大きく異なります。

合成された胴体部分では、AD-NeRF の頭と胴体の分離の問題 (黄色の矢印) がより顕著ですが、RAD-NeRF の胴体はいくつかの極端な場合 (赤い矢印) で頭と位置合わせできません。 -NeRF は、アダプティブ ポーズ エンコーディングにより、胴体合成においてより高い堅牢性と品質を示します。

図 6. 定性的結果

合成の品質をさらに評価するために、実際のユーザーを対象にアンケート調査の形式でユーザー調査を実施します。実験結果は、私たちの方法が高忠実度の会話ポートレートビデオを合成できることを示しています。

同時に安定性もテストしましたが、回転角度が大きい一部の視野角の下でも、この方法は良好な安定性を示しました。ワオソフト アイオット http://143ai.com

3.3 アブレーション実験 

表現 3 つの異なる表現バックボーンで頭部再構成の品質を評価します。1 つ目は、AD-NeRF と同じ純粋な MLP ベースのネットワークです。次に、グリッドベースのバックボーンについて、トライハッシュを EG3D の純粋なトライプレーンおよび RAD-NeRF で使用されるインスタント NGP 3D ハッシュ グリッドと比較します。提案されたトリプル ハッシュ表現は最高の画質を実現し、リップ シンクを大幅に改善します。

領域アテンション モジュール: 直接連結と比較して、3 つのバックボーンで領域アテンション メカニズムを評価します。結果は、正確な動作モデリングに対する私たちの方法の大きな影響を示しています。提案されたアテンションメカニズムを既存のバックボーンと組み合わせるだけで、より少ないパラメータでトレーニング時間を半分に短縮しながら、画質とリップシンクの点で現在の最先端の方法よりも良いスコアを達成できることは注目に値します。これは、私たちの注意メカニズムの効率の高さを示しています。

アテンション タイプ: 表 5 では、領域アテンション メカニズムの 2 つのタイプのアテンション、つまり機能ごととチャネルごとを比較します。特徴ごとのアテンションは 1D アテンション ベクトルを使用してオーディオ特徴全体をスケーリングし、チャネルごとに各チャネルの重み付けを変更します。私たちの実験では、チャネルごとのリップシンク品質の点で機能ごとのパフォーマンスが優れていることが示されており、これは、提案された領域ごとの注意メカニズムが、異なる空間領域間の相互に異なる影響をうまく捕捉し、したがって唇の動きの品質を大幅に向上させることを示しています。

4. まとめ

本稿では、主に 3 プレーンのハッシュ表現と領域注目モジュールから構成される、高忠実度のトーキング ポートレートを合成するための効率的かつ効率的なフレームワーク ER-NeRF を提案します。私たちのフレームワークは、より高い効率で忠実度の高い会話ポートレート合成のタスクで大幅なパフォーマンスの向上を実現します。これは、条件 NeRF の設計に新しい技術を提供する可能性もあります。

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/131885664