PHORHUM(CVPR2022)-3D重建论文解读


论文: 《Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing》
github:暂未开源

创新点

本文提出PHORHUM,,仅使用RGB图即可完成3D人体重建,并且第一次进行表面着色;
仅使用3D监督不足以生成高质量颜色重构,作者引入基于patch的渲染损失,使得可见部位完成颜色重构,不可见部位生成逼真颜色估计;
之前工作受限于特征几何、反射率、光照影响,本文端到端方法可有效解耦这些影响因素;
针对几何及颜色重建,作者使用不同评估指标验证该方法;

作者提出端对端解决方案,预测外观及几何结构;外观建模为表面颜色反射率,但没有场景特定的光照效果,因此作者方法也会预测场景光照信息,用于重新着色估计的scan,使得将额外的人放入已存在场景变得更加逼真;作者发现仅使用稀疏3D信息不足以产生满意结果,因此引入渲染损失,提高外观质量;
作者贡献总结如下:

  1. 提出人体数字化端对端训练系统;
  2. 第一次引入反射率和阴影信息;
  3. 渲染损失改进视觉效果;
  4. 结果更加准确,细节丰富;

算法

在这里插入图片描述
PHORHUM算法如图2,使用单张图片 I I I进行3D建模 S S S,如式1,
在这里插入图片描述
f f f表示使用神经网络进行有符号距离计算(SDF),
特征网络 G G G生成输入图在 x x x空间对齐特征 z x z_x zx,如式2,
在这里插入图片描述
f f f生成有符号距离 d d d(真值mesh与预估surface之间距离)及颜色反射率 a a a,如式3,
在这里插入图片描述
为解耦shading与表面颜色,shading网络 s s s用于估计表面shading,如式4, n x n_x nx为估计距离的梯度,在这里插入图片描述
l l l为场景光照模型;
在这里插入图片描述
最后进行上色, c = s ∘ a c = s \circ a c=sa,其中 ∘ \circ 表示element-wise multiplication;

损失函数

几何颜色损失

L g L_g Lg表示真值mesh与预估surface之间距离为0,距离梯度与真值mesh梯度(表面法向)一致, O O O来自真值mesh M

在这里插入图片描述
L l L_l Ll表示监督mesh表面周围额外样本 F F F的sign, l l l表示在表面内或外, ϕ \phi ϕ表示sigmoid激活函数,如式6,其中 k k k可学习;
在这里插入图片描述
L e L_e Le表示几何正则项,将预测表面点距离梯度归一化为1,如式7;
在这里插入图片描述
L a L_a La表示监督颜色反射率与mesh纹理所计算的 a a a之间距离,监督surface周围及surface上的样本,对于surface周围的样本,真值使用最近表面上的点代替
在这里插入图片描述

渲染损失

从相机位置出发,沿着射线计算最小距离值的sign,如式9,其中 r r r为射线, o o o为相机位置
在这里插入图片描述
寻找落在surface表面样本 R s ( σ < 0.5   a n d   l = 0 ) R_s(\sigma<0.5 \ and\ l=0) Rs(σ<0.5 and l=0),对于子集 R s R_s Rs使用球面追踪定位表面点,使用第 t t t轮交点 x ^ \hat x x^可微到网络参数,如式10;
在这里插入图片描述
x ^ f \hat x^f x^f表示正面交叉点、 x ^ b \hat x^b x^b表示背面,背面交叉点;使用Lr进行强化纠正表面颜色,如式11
在这里插入图片描述
使用 L c L_c Lc进行监督上色,如式12, p p p为图片 I I I中对应像素值;
在这里插入图片描述
L s L_s Ls:作者发现使用真值 n ˉ \bar n nˉ及反射率 a ˉ \bar a aˉ监督图片 I I I中所有像素上色也有作用,如式13
在这里插入图片描述

数据集

在这里插入图片描述
如图3,作者使用217个scan,通过对100个scan进行颜色增强,38个进行姿增强,最终生成数据集包含约19W数据,每张图描绘使用随机HDRI(high dynamic range images)背景及随机放置位置的渲染scan;

补充细节

1、特征提取网络 G G G为13层的U-Net;
2、几何网络 f f f为8个512维的全连接层;
3、shading网络 s s s由3个256维全连接层组成;

实验

表2表示3D重构正面、背面IS得分;
在这里插入图片描述
表3表示与其他单视角重构方案比较及是否使用渲染损失及shading估计的消融实验;
在这里插入图片描述
图6展示使用渲染损失改进折射率估计,仅使用稀疏3D监督颜色不自然;
在这里插入图片描述
图4展示PHORHUM与SOTA方法质量比较;
在这里插入图片描述
图5展示PHORHUM与SOTA方法及真值效果比较;
在这里插入图片描述
图7展示合成图片,估计光照强度应用于重建的目标
在这里插入图片描述

结论

限制

图8展示PHORHUM的限制,当输入人体衣服或姿态与训练所使用的数据集分布偏离过大时,效果比较差,因此数据集分布要一致;
在这里插入图片描述

应用

虚拟试衣、AR、VR、人机交互等

结论

PHORHUM通过输入一张人体照片即可完成穿衣人体的3D重建,第一个联合计算3D几何,表面反射率和阴影进行端到端模型训练的方法,其中渲染损失对表面颜色影响至关重要;
后续作者将研究半监督渲染方法,基于各种各样人体数据集,其中3D真值不可得;

猜你喜欢

转载自blog.csdn.net/qq_41994006/article/details/126395370