MarrNet: 3D Shape Reconstruction via 2.5D Sketches

一.摘要

1.从单一图片进行三维重建需要很强的三维先验知识,因为很少有在真实图片上的标签
2.当在合成图片上进行训练时转移到真实图片集会造成域自适应问题

Q:什么是领域自适应问题?
A_1:领域自适应是与机器学习和转移学习相关的领域。 当我们的目标是从源数据分布中学习在不同(但相关)的目标数据分布上的良好性能模型时,就会出现这种情况。 例如,常见垃圾邮件过滤问题的任务之一在于使模型从一个用户(源分发)适应到接收显着不同的电子邮件(目标分发)的新模型。 注意,当有多个源分发可用时,该问题被称为多源域自适应。
A_2:在这里是指在数据集不同时重新使其学习不同数据集的概率分布,也就是文中所提到的fine-tuned

3.MarrNet采用分解思想将3D重建转换为先估计2.5D的草图再估计3D形状。首先,与完整的3D形状相比,2.5D的草图更容易从2D图像中恢复;恢复2.5D草图的模型也更有可能从合成数据转移到真实数据。其次,对于2.5D草图的三维重建,系统可以完全从合成数据中学习。这是因为我们可以轻松地渲染现实的2.5D草图,而不需要在真实的图像中建模对象的外观变化,包括灯光、纹理等。这进一步缓解了领域适应问题。第三,我们推导出可微投影函数从三维形状到2.5维的草图

二.Introduction

1.人类可以从一张图像中快速识别出三维形状,但人类很容易就能识别出它们有非常相似的3D形状。最重要的信息是什么?

2.本文将物体在纹理、反照率、光照等方面的外观变化与物体的形状分离开来,保留了观察到的图像的所有信息,用于三维重建。人类进一步将2.5D草图和从过去经验中获得的形状结合起来,来重建一个完整的3D形状

3.研究人员试图解决单图像三维重建与深度学习的问题。这些方法通常直接从单个RGB图像回归到三维形状[Tulsiani et al., 2017, Choy et al., 2016, Wu et al., 2016]。相比之下,我们提出了一个两步的端到端可训练的结构,依次恢复2.5D草图(深度和法线贴图)和3D形状

4.本文方法有几个独特的优点。首先,2.5D草图的使用减轻了域转移的负担。由于单幅图像三维重建是一个高度欠约束的问题,需要对物体形状有很强的先验知识。这对基于学习的方法提出了挑战,因为真实图像中准确的3D对象注释非常少见。以前的大多数方法都是纯训练合成数据[Tulsiani et al., 2017, Choy et al., 2016, Girdhar et al., 2016]。然而,这些方法常常由于不完全呈现而出现域适应问题。相比之下,从图像中学习2.5D的草图要容易得多,也更容易从合成图像转换为真实图像

5.本文还在2.5D草图和3D形状之间加强了可微分的约束,使得我们的系统端到端可训练,即使是在没有任何注释的真实图像上。在给定一组未标记图像的情况下,我们的算法通过对合成数据的预训练,可以推断出图像中物体的2.5D草图,并利用它来完善对物体三维形状的估计。这种自监督特性增强了它在不同领域图像上的性能
在这里插入图片描述
6.我们的贡献是三方面的:受视觉认知理论的启发,
(1)我们提出了一种通过2.5D草图进行单幅图像三维重建的两步分解公式;
(2)我们开发了一个新颖的、端到端可训练的模型,该模型具有可微分的投影层,确保了两者之间的一致性三维形状和中层表现;
(3)并在2.5D骨架和三维形状重建中验证了该方法的有效性在合成和真实数据上

三.Approach

在这里插入图片描述
1.为了从单视图RGB图像中恢复三维结构,我们的MarrNet包含三个部分:首先,一个2.5D的sketch 估计结构,它可以预测对象的深度、表面法线和轮廓图像(图a);第二,三维形状估计器,使用体素表示来推断三维物体形状(图b);第三,重投影一致性函数,加强估计的3D结构和推断的2.5D草图之间的对齐(图c)

3.1 2.5D的草图估计

1我们的网络的第一个组件(图2a)以一个2D RGB图像作为输入,并预测它的2.5D草图:表面法线、深度和轮廓。2.5D草图估计步骤的目标是从输入图像中提取出固有的对象属性,同时丢弃在三维重建任务中不重要的属性,如对象纹理和灯光

3.本文使用一个编码器-解码器网络架构来估计2.5D的草图。
(1)编码器是ResNet-18 [He et al., 2015],将256×256 RGB图像编码成大小为8×8的512个特征图
(2)解码器包含4组5×5全卷积层和ReLU层,然后是4组1×1全卷积层和ReLU层。输出相应深度、表面法线、轮廓图像,分辨率为256×256

3.2 3D形状估计

我们的框架的第二部分(图b)从估计的2.5D草图推断出3D对象形状。

(1)网络的重点是学习形状先验去解释输入。由于它只使用表面法线和深度图像作为输入,所以它可以在合成数据上进行训练,而不会遇到域适应问题:它可以直接渲染接近完美的2.5D草图,但是很难渲染真实的图像

(2)网络架构的灵感来自TL网络[Girdhar et al., 2016]和3D-VAE-GAN [Wu等人,2016b],同样采用编码解码风格。它以一幅普通图像和一幅深度图像作为输入,通过5套卷积、ReLU和池化层将它们映射到一个200维的向量,然后是两个完全连接的层。详细的编码器结构可以在Girdhar等[2016]中找到。然后矢量经过一个解码器,解码器由5个全卷积和ReLU层组成,输出一个基于体素的128×128×128重建对象

3.3 重投影一致性

本文探索了一种新的方法来包括预测的三维形状和估计的2.5D草图之间的重投影一致性损失,包括深度重投影损失和表面法向重投影损失

我们使用V(x,y,z)来表示3D体素网格中(x,y,z)位置的值,假设v(x,y,z )属于[0,1],任取 x,y,z。我们用d(x,y)表示估计的位置深度(x,y),n(x,y) = (n a,n b,n c)表示估计的表面法线

投影深度损失试图保证深度v(x,y),d(x,y)的体素应该是1,而它前面的所有体素应该是0。这样可以确保估计的3D形状与估计的深度值相匹配
在这里插入图片描述
深度信息的损失:
(1)当 预测深度 > 实际深度 说明在实际深度前有体素块则将loss定义为V^2(x,y,z)
(2)当 预测深度 = 实际深度 减去当前体素点的value值
(3)当 预测深度 < 实际深度 说明在估计深度前没有体素块所以loss为0

在这里插入图片描述

在这里插入图片描述

3.4 训练范示

1.我们采用两步训练模式。首先在合成图像上分别训练2.5D草图估计和3D形状估计分量;然后我们在真实的图像上微调网络

2.使用ShapeNet对象的合成图像。该2.5D草图估计器是训练使用地面真相表面法线,深度,剪影图像与L2损失。使用标签值体素和交叉熵损失对三维生成器进行训练。

3.利用重投影一致性损失,利用预测的法线、深度和轮廓,对模型在真实图像上的三维估计分量进行微调。我们注意到,一个简单的实现可以生成能够很好地解释2.5D草图的形状,但外观却不真实。这是因为三维估计模块对图像进行了过度拟合,而没有保留之前学习的三维形状。

4.因此,我们选择固定三维估计器的解码器,只微调编码器。在测试期间,我们的方法可以是自我监督的,即,我们甚至可以在没有任何注释的情况下对单个图像进行微调。在实践中,我们分别对每个图像进行40次迭代的模型微调。对于每个测试图像,在现代GPU上进行微调需要10秒;如果不进行微调,测试时间大约是100毫秒。我们使用SGD进行优化,批大小为4,学习率为0.001,动量为0.9。我们在Torch7中实现了我们的框架

在这里插入图片描述
利用重投影一致性可以很好的拟合2.5D草图但外观却不真实,因为三维估计模块对图像进行了过度拟合,而没有保留之前学习的三维形状,所以要保留解码器对形状的先验就是不fine-tune解码器

四.评估

在这一节中,我们将使用我们的框架的变体来呈现单幅图像三维重建的定性和定量结果。我们评估我们的整个框架在合成和现实生活中的图像上的三个数据集

4.1.ShapeNet

在这里插入图片描述
我们在图4中显示了定性结果。我们估计的表面法线和深度图像抽象出了RGB图像中的纹理和照明等非本质信息,同时保留了关于物体形状的内在信息。与直接预测基线相比,我们的模型输出的物体具有更多的细节和更光滑的表面

4.2 Pascal 3D+

1.我们首先在ShapeNet数据集上分别培训每个模块,然后在PASCAL 3D+数据集上对它们进行微调。与之前的作品[Tulsiani et al., 2017]不同,我们的模型在微调时不需要轮廓作为输入;而是联合估计轮廓

在这里插入图片描述
在Pascal 3D+ 数据集上进行fine-tune不需要真实标签,只是需要3d估计的形状和2.5D这里进行投影一致性的损失
(1)上图表示不能在decoder进行fine-tune否则会忘掉形状先验
(2)所以通过fine-tune encoder进行解决域适应问题

在这里插入图片描述
Pascal 3D+ [Xiang et al., 2014]数据集上椅子的3D重建。从左到右:输入,数据集的地面真实形状,DRC [Tulsiani et al., 2017]的3D估计,以及MarrNet预测的两个视图。我们的模型恢复了更精确的三维形状

4.3 IKEA数据集

宜家的数据集[Lim et al., 2013]包含了宜家家具的图片,并且是精确的3D形状和姿势注释。这些图像具有挑战性,因为对象通常被严重遮挡或裁剪。我们还在IKEA数据集上评估我们的模型

我们在图8中显示了定性结果,并与3D-VAE-的估计进行了比较GAN [Wu et al., 2016b]和the ground truth。如图所示,我们的模型可以处理现实场景中的轻度遮挡。我们还对宜家的数据集进行了人体研究。结果表明,61%的受试者对我们的重建比那些3D-VAE-GAN更喜欢

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

五.Conclusion

我们提出了一种新的模型MarrNet,它明确地为单幅图像的三维形状重建建模2.5D草图。2.5D草图的使用增强了模型的性能,并使它很容易适应跨域甚至跨类别的图像。我们还开发了3D形状和2.5D草图一致性的可微损失函数,这样MarrNet就可以在没有注释的情况下对真实图像进行端到端的微调。实验表明,我们的模型性能良好,并且比竞争者更受人类注释者的青睐

发布了27 篇原创文章 · 获赞 81 · 访问量 5649

猜你喜欢

转载自blog.csdn.net/qq_39426225/article/details/102563737
今日推荐