Urban Radiance Fields:城市辐射场
摘要：这项工作的目标是根据扫描平台捕获的数据执行 3D 重建和新视图合成，这些扫描平台通常部署用于城市室外环境中的世界地图绘制（例如，街景）。给定 RGB 图像序列和通过室外场景移动的相机和扫描仪获取的激光雷达扫描，生成了一个模型，可以从中提取 3D 表面并合成新的 RGB 图像。该方法扩展了神经辐射场，它已被证明可以在受控设置中为小场景合成逼真的新颖图像，并使用新方法来利用异步捕获的激光雷达数据，解决捕获图像之间的曝光变化，并利用预测图像分割来监督密度在指向天空的射线上。这三个扩展中的每一个都在街景数据的实验中提供了显着的性能改进。

创新点：
1、实验中将激光雷达信息与RGB 信号结合起来。通过仔细融合这两种模式，可以补偿大规模和复杂场景中视点的稀疏性。引入了一系列基于激光雷达的损失，可以对建筑物等固体结构和体积层进行准确的表面估计。
2、自动分割天空像素并定义一个单独的圆顶状结构，为指向天空的相机光线提供明确定义的监督信号。
3、模型通过估计每个相机的仿射颜色变换来自动补偿不同的曝光。

数据

本文研究了如何从自动驾驶和世界地图应用中收集的数据中重建三维表面并合成城市空间的新视图。
图像数据：街景图像是由多个鱼眼摄像头收集的，这些摄像头连接到一个徒步旅行者捕捉装置上。每个摄像机都用估计的内参和相对于徒步者的位姿来校准。当徒步旅行者在世界各地移动时，从每个摄像机以大约2Hz的速度收集图像。图像在一个全局坐标系中自动定位，使用从运动中得到的结构和GPS信息，能够组装与每个像素相对应的原点为o和方向为d的相机射线。现实世界的城市场景中有移动的物体，它们的位置随着时间的推移而变化（行人、汽车、骑自行车的人等）。如果不处理，这些对象可能导致训练的神经网络，产生重影和模糊。由于动态往往与语义相关，对每幅图像运行一个预先训练的语义分割模型，然后屏蔽最突出的运动类别–人的像素
雷达数据：除了成像传感器，还包含飞行时间VLP16激光雷达传感器，这些传感器主动发射光来测量到表面的距离。与代表密集入射光样本的成像数据不同，激光雷达数据是一个扫描的时间戳3D线段序列，由起始和终止位置表示。单个激光雷达段表明，在时间戳期间，发射射线穿过的空间没有与不透明表面相交。做了一个简化的假设，激光雷达探测到的大多数表面都是静止的，比如建筑物和道路，所以忽略时间戳信息，并假设在整个捕获过程中空的空间是空的。这可以模拟激光雷达射线类似于照相机射线，起源为o_l，方向为d_l，终止距离为z_l。
。

方法

用场景级神经网络参数θ和每幅图像曝光参数{β_i}定义了一个城市辐射场(URF)。给定场景的图像和激光雷达数据，通过最小化以下损失来优化URF：
在这里插入图片描述

1 Photometric-based Losses（基于光度的损失）

光度损失项类似于原始的NeRF方程，但也取决于估计的每幅图像曝光参数{βi}（个人认为这里的图像曝光参数类似于nerf in the wild里的外观潜在优化向量的作用，强调每张图片光景外观的不同）
在这里插入图片描述
用两种方法修改体绘制方程，每种方法分别介绍，公式如下

1、Exposure compensation （曝光补偿）

映射系统获取的图像通常采用自动白平衡和自动曝光的方法，这使得L_rgb的计算变得复杂。之前的文章使用latent codes潜在优化编码对每个图像分别学习，将图像无关的场景辐射映射到图像相关的辐射,该方法的缺点是：用每个图像的潜在代码建模曝光变化是过度参数化的，因为它允许潜在代码补偿非曝光相关的误差。该实验中，对共享网络预测的亮度进行仿射映射，其中仿射变换是一个从每幅图像潜在代码β_i∈R^B解码的3x3矩阵：
在这里插入图片描述
这种映射通过一个更严格的函数来模拟白平衡和曝光变化，因此当场景亮度参数θ和曝光映射β联合优化时，不太可能引起不必要的纠缠。
仿射变换，是指像素坐标到图像坐标的转换

2、Sky modeling （天空建模）

室外场景包含的天空区域，射出的光线从未穿过任何不透明的表面，因此NeRF模型在这些区域得到微弱的监控信号。为了解决这个问题，渲染模型包括一个以基于坐标的神经网络表示的球形亮度(环境)地图，类似于Gancraft中使用的辐射图
在这里插入图片描述
对每个图像运行一个预先训练的语义分割模型，以检测可能是天空的像素:S_i=S(I_i)，如果射线r通过图像i中的天空像素，令S_i®=1。然后使用天空掩码来定义一个额外的损失，鼓励通过天空像素的射线在所有点样本的密度为零
在这里插入图片描述
公式中，如果光线射向天空，未穿过物体，S_i®=1，就会计算这个损失，并训练该损失最小，鼓励通过天空像素的射线在所有点样本的密度为零。

2、Lidar losses （雷达损失）

由于数据中有激光雷达数据（点云），用它来监督模型的训练。给出了L个激光雷达样本的集合D={（o_l,d_l,z_l)l=1-N},每个样本对应于一条射线r(z)=o_l+zd_l,以及相关的三维测量P_l=r(z_l)。
将损失分解为两种不同的类型：1-监督期望的深度值；2-监督从激光雷达传感器到观测位置沿视线的自由空间。