PHORHUM (CVPR2022) の解釈 - 3D 再構築ペーパー


論文: 「服を着た人間のフォトリアリスティックな単眼 3D 再構成」
github: まだオープンソースではない

革新

この論文では、RGB 画像のみを使用して 3D 人体再構成を完了し、初めて表面着色を実行できる PHORHUM を提案します; 3D 監督を使用するだけでは高品質の色再構成を生成するのに十分ではなく、著者はパッチベースのレンダリング ロスを紹介します
。目に見える部分が色の再構築、目に見えない部分の現実的な色の推定を完了することができるように;
以前の作業は、フィーチャのジオメトリ、反射率、および照明効果によって制限されていましたが、このペーパーのエンドツーエンドの方法は、これらの影響要因を効果的に切り離すことができます
;ジオメトリと色の再構成、著者はさまざまな評価指標を使用してこの方法を検証します。

著者は、外観と幾何学的構造を予測するためのエンド ツー エンドのソリューションを提案します。外観は表面の色の反射率としてモデル化されますが、シーン固有の照明効果は存在しないため、著者の方法はシーンの照明情報も予測します。これは使用されます。推定されたスキャンの色を変更して、既存のシーンに人物を追加すると、よりリアルになります; 著者は、まばらな 3D 情報を使用するだけでは満足のいく結果が得られないことに気付きました。貢献は次のように要約されます

  1. 人体のデジタル化エンド ツー エンドのトレーニング システムを提案します。
  2. 初めてアルベドとシャドウ情報を導入しました。
  3. レンダリング ロスは視覚効果を向上させます。
  4. 結果はより正確で詳細になります。

アルゴリズム

ここに画像の説明を挿入
PHORHUM アルゴリズムを図 2 に示します。単一の画像IIを使用しています。3DモデリングSSやってます式 1、 ffなどのS
ここに画像の説明を挿入
f は、符号付き距離計算 (SDF)、
フィーチャ ネットワークGGG はxxで入力グラフを生成しますx空間アライメント機能zx z_x×、式 2、 ffなど
ここに画像の説明を挿入
f は符号付き距離ddd (真のメッシュと推定された表面の間の距離) と色の反射率aa式 3 などのa は
ここに画像の説明を挿入
シェーディングとサーフェス カラーを分離するためのものであり、シェーディング ネットワークsss は、式 4、 nx n_xなどのサーフェス シェーディングを推定するために使用されます。n×推定距離の勾配、ここに画像の説明を挿入
lllはシーンの照明モデルです;
ここに画像の説明を挿入
最後に色付け、c = s ∘ ac = s \circ ac=sa、ここで∘ \circ表示element-wise multiplication;

損失関数

幾何学的な色の損失

L g L_gLg真のメッシュと推定されたサーフェスの間の距離が 0 であり、距離の勾配が真のメッシュの勾配 (サーフェス法線) と一致していることを示します ( OO )。O は真理メッシュ Mに由来します

ここに画像の説明を挿入
L l L_lLl監視されたメッシュ サーフェスの周りの余分なサンプルFFを示しますFのサイン、lll は表面の内側または外側を意味し、ϕ \phiϕ は式 6 のようなシグモイド活性化関数を表し、ここでkkkを学習できます;
ここに画像の説明を挿入
L e L_eLe幾何学的正則化項を示し、式 7 に示すように、予測されたサーフェス ポイントの距離勾配を 1 に正規化します;
ここに画像の説明を挿入
L a L_aLa監視色の反射率とメッシュのテクスチャから計算されたaaを示します。間の距離、サーフェスの周囲のサンプルとサーフェス上のサーフェスの周囲のサンプルの場合、真の値はサーフェス上の最も近いポイントに置き換えられます
ここに画像の説明を挿入

レンダリングロス

カメラの位置から開始して、式 9 のように光線に沿った最小距離値の符号を計算します。ここで、rrrは光線です、oooはカメラの位置表面に落ちる
ここに画像の説明を挿入
サンプル R s を見つけますRs( p<0.5インチ_ _  =0 )、サブセットR s R_sRs球面トレースを使用してサーフェス ポイントを特定し、ttを使用しますtラウンド交点x ^ \hat xバツ^ は式 10 のようなネットワーク パラメーターで微分可能です;
ここに画像の説明を挿入
x ^ f \hat x^fバツ^f は正面交差点を意味し、x ^ b \hat x^bバツ^b は背面、背面の交点を表します。Lr を使用して、L c L_c
ここに画像の説明を挿入
を使用したLc数式 12、 ppなどの教師付きの色付けを実行します。pは絵IIIの対応するピクセル値;
ここに画像の説明を挿入
L s L_sLs: 著者らは、真理値n ˉ \bar nを使用してnˉと反射率a ˉ \bar aaˉ監修I 内のすべてのピクセルに色を付けるに
ここに画像の説明を挿入

データセット

ここに画像の説明を挿入
図 3 に示すように、著者は 217 スキャンを使用しています.100 スキャンの色を強調し、38 スキャンのポーズを強調することにより、最終的に生成されたデータ セットには約 19W のデータが含まれます.各画像は、ランダムな HDRI (高ダイナミック レンジ画像) 背景を示していますrandom 配置位置のレンダリング スキャン。

さらなる詳細

1. 特徴抽出ネットワークGGGは 13 層の U-Net;
2. ジオメトリック ネットワークfffは 512 次元の 8 つの完全に接続されたレイヤー、
3、シェーディング ネットワークsss は、 3 つの 256 次元の全結合層で構成されます。

実験

表 2 は、3D 再構成の前面と背面の IS スコアを示しています。
ここに画像の説明を挿入
表 3 は、レンダリング損失とシェーディング推定を使用するかどうかの他の単一ビュー再構成スキームとアブレーション実験との比較を示しています。図 6 は、
ここに画像の説明を挿入
屈折率を改善するためのレンダリング損失の使用を示しています。推定、スパース 3D のみを使用 教師ありの色が不自然です;
ここに画像の説明を挿入
図 4 は PHORHUM 法と SOTA 法の品質比較を示しています;
ここに画像の説明を挿入
図 5 は PHORHUM 法と SOTA 法と実数値効果の比較を示しています;
ここに画像の説明を挿入
図 7 は合成画像を示し、推定値は再構成されたターゲットに光強度が適用されます
ここに画像の説明を挿入

結論は

限界

図 8 は PHORHUM の限界を示しています.人間の衣服や姿勢の入力がトレーニングに使用されたデータセットの分布から大きく外れている場合、効果は比較的低いため、データセットの分布は一貫している必要があります。
ここに画像の説明を挿入

応用

バーチャル フィッティング、AR、VR、ヒューマン コンピュータ インタラクションなど

結論は

PHORHUM は人体写真を入力することで衣服を着た人体の 3D 再構成を完了することができます.レンダリング ロスが影響に重要なエンド ツー エンドのモデル トレーニングのために、3D ジオメトリ、表面反射率、および影を共同で計算する最初の方法です。表面色の;
後続の著者は、3D の真の値が利用できないさまざまな人間のデータ セットに基づいて、半教師付きレンダリング方法を研究します。

おすすめ

転載: blog.csdn.net/qq_41994006/article/details/126395370