Neural Point-Based Graphics

Neural Point-Based Graphics ：基于神经点的图形
摘要：论文提出了一种基于点的真实的场景外观建模方法。该方法使用原始点云作为场景的几何表示，并使用编码局部几何和外观的可学习神经描述符来增强每个点。深度渲染网络与描述符并行学习，使得可以通过使来自新视点的点云的光栅化经过该网络来获得场景的新视点。输入光栅化使用学习的描述符作为点伪色。

光栅化：

https://zhuanlan.zhihu.com/p/544088415?utm_id=0
https://www.jianshu.com/p/54fe91a946e2

介绍：
论文将基于图像的渲染、基于点的图形和神经渲染的思想结合到一个简单的方法中。该方法使用原始点云作为场景几何表示，从而消除了表面估计和网格划分的需要。与其他神经绘制方法类似，使用深度卷积神经网络从新视点生成真实感绘制。通过估计描述数据的几何和光度特性的潜在向量（神经描述符）来促进渲染的真实性。这些描述符直接从数据中学习，并且这种学习与渲染网络的学习协同发生，与渲染网络一起学习表面元素的神经描述符。

1、METHOD

系统pipeline如下图，给定具有神经描述符D和摄像机参数C的点云P，我们使用描述符作为伪色，用z缓冲器以若干分辨率光栅化点。然后，我们通过U-netlike渲染网络传递光栅化，以获得最终图像。我们的模型通过优化渲染网络的参数和反向传播感知损失函数的神经描述符来适应新的场景。
在这里插入图片描述
简单来说，输入的是点云，包括相机位姿以及初始嵌入的神经描述符，经过训练得到该场景中的新视角图像。

2、Rendering

这部分论文解释了，在给定具有学习的神经描述符和学习的渲染网络的点云的情况下，是如何执行新视图的渲染。
假设点云P = {p₁，p₂，…，p_N}，每个点对应一个M维描述子，则集合记为D = {d₁，d₂，…，d_N}，新视角C相机位姿（内外参数）。假设目标图像具有W× H大小的像素网格，并且其视点位于点p0。
渲染过程首先将点投影到目标视图上，使用描述符作为伪彩色，然后使用渲染网络将伪彩色图像转换为真实感RGB图像。创建一个大小为W ×H的M通道原始图像S（P，D，C），并且对于投影到（x，y）的每个点p_i，设置S（P，D，C）[ [x]，[y] ] = di（其中[a]表示a ∈ R的最近整数）。由于许多点可能投影到同一像素上，因此使用z-Buffer（深度缓冲）来去除被遮挡的点。对每一个像素点使用一个buffer记录z的深度，最后选择距离最近的点，不考虑后面的点。
然而，点云中拓扑信息的缺乏导致了容易出现孔洞的表示，就会出现透过前景投到图像中的问题，从而可以通过前表面看到来自被遮挡表面和背景的点（bleeding ）。这个问题传统上是通过splatting来解决的，即，利用一定邻域内的点集作为输出，重建出连续的几何表面。本文提出了一个替代的渲染方案，它不依赖于圆盘半径的选择。

渐进渲染Progressive rendering

论文提出采用多尺度（渐进式）渲染，将一个点云渲染T次到不同空间分辨率的画布金字塔上。通过执行上述简单的点云投影，获得图像序列S[1]、S[2]。。。S[T]，其中第i个图像具有 W/2^t×H/2^t 的大小。可以看出最高分辨率原始图像S[1]包含最大量的细节，但是也bleeding现象也比较严重。最低分辨率图像S[T]具有粗略的几何细节，但是具有最少的bleeding，而中间原始图像S[2]，，，S[T−1]实现了不同的细节化-渗色折衷。最后，使用具有可学习参数θ的渲染网络R_θ来将所有原始图像映射到三通道RGB图像I：
在这里插入图片描述
渲染网络基于卷积U-Net架构，并且具有门控卷积，用于更好地处理潜在的稀疏输入。U-Net的编码器部分包含与卷积和非线性交织的几个下采样层。然后，将原始图像S[i]以相应的分辨率连接到U-Net编码器的第一块。这种渐进（从粗到细）机制使人联想到纹理小中见大贴图以及计算机图形中的许多其它从粗到细/变化的细节等级渲染算法。渲染网络提供了隐式细节层次选择的机制。

2、Model creation

假设在拟合期间K个不同的场景是可用的。对于第k个场景，点云P^k以及L_k个训练ground truth RGB图像的集合I^k = {I^k，1，I^k，2，,I^k，Lk }，已知相机参数{C^k，1，C^k，2，.。。C^k，Lk }的表达式。然后，拟合目标L对应于渲染和地面真实RGB图像之间的loss：在这里插入图片描述
D^k表示第k个场景的点云的神经描述符集，∆表示两个图像（真实地面图像和渲染图像）之间的失配。神经描述符是通过损失导数关于S（P，D，C）到di的（1）反向传播来更新的。
因此，虽然我们可以在单个场景上执行拟合，但当渲染网络拟合到类似类型的多个场景时，新视点的结果往往更好。在实验验证中，除非另有说明，在两个阶段的过程中拟合渲染网络。首先在某类场景族上预训练渲染网络。其次，将渲染网络适配（微调）到新场景。在该阶段，学习过程（2）以新场景的零描述符值和预训练的渲染网络的权重开始

提出了一种用于复杂场景建模的基于神经点的方法。与经典的基于点的方法类似，使用3D点作为建模基元。每个点都与一个局部描述符相关联，该描述符包含关于局部几何形状和外观的信息。一种渲染网络，将点光栅化转换为逼真的视图，同时将学习到的描述符作为输入点伪颜色。因此，证明了点云可以成功地用作神经渲染的几何代理，而深度渲染网络可以优雅地处理关于连通性以及几何噪声和孔洞的缺失信息。

参考：
https://zhuanlan.zhihu.com/p/158945862