场景即占用 | Scene as Occupancy：占用网络新方案！

作者 | eyesighting 编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/636063988

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【占用网络】技术交流群

题目：Scene as Occupancy

名称：场景作为占用

论文：https://arxiv.org/abs/2306.02851

代码：https://github.com/OpenDriveLab/OccNet

单位：商汤、上海人工智能实验室、香港大学、香港中文大学

0.摘要

人类驾驶员可以通过视觉系统轻松描述复杂的交通场景。这种精确感知的能力对于驾驶员的计划至关重要。为了实现这一点，需要一种几何感知表示，将物理 3D 场景量化为结构化网格地图，每个单元格都带有语义标签，称为 3D 占用。与边界框的形式相比，占用背后的一个关键见解是它可以捕获场景中关键障碍物的细粒度细节，从而促进后续任务。先前或同期的文献主要集中在单个场景完成任务上，我们可能会争辩说这种占用表示的潜力可能会产生更广泛的影响。

在本文中，我们提出了 OccNet，具有级联和时间体素解码器的多视图以视觉为中心的管道，用于重建 3D 占用。OccNet 的核心是一个通用的占用嵌入来表示 3D 物理世界。这样的描述符可以应用于广泛的驾驶任务，包括检测、分割和规划。为了验证这种新表示和我们提出的算法的有效性，我们提出了 OpenOcc，这是第一个建立在 nuScenes 之上的密集高质量 3D 占用基准。实证实验表明，跨多个任务有明显的性能提升，例如，运动规划可以见证碰撞率降低 15%-58%，证明了我们方法的优越性。

1.介绍

当你在路上开车时，你会如何通过眼睛描述3D空间中的场景？人类司机可以很容易地用“我的车左侧大约5英寸处有一辆奔驰”、“后面大约50米处有一个卡车，车上有一根巨大的突出的煤气管”等等来描述环境。拥有以“有”的形式描述现实世界的能力对于实现安全自动驾驶（AD）至关重要。这对于以视觉为中心的AD系统来说是不平凡的，因为场景中存在各种各样的实体，包括汽车、SUV和建筑卡车等车辆，以及静态屏障、行人、背景建筑和植被。将3D场景量化为带有语义标签的结构化单元，称为3D占用，是一种直观的解决方案，这种形式在Mobileye[1]和Tesla[2]等行业社区中也得到了提倡。与过于简化物体形状的3D盒子相比，3D占用具有几何意识，通过具有不同几何结构的3D立方体集合描绘不同的物体和背景形状。如图1（c-d）所示，3D盒子只能描述施工车辆的主体，而3D占用可以保留其吊臂的细节。其他传统的替代方案，如点云分割和鸟瞰图（BEV）分割，虽然被广泛部署在AD的背景下，但在成本和粒度上分别存在局限性。具体比较见表1。3D占用的这种明显优势鼓励人们研究其增强传统感知任务和下游规划的潜力。

类似的工作已经在初始阶段讨论了3D占用。占用网格图是机器人学中的一个类似概念，是移动导航中的一种典型表示[30]，但仅作为规划的搜索空间。3D语义场景完成（SSC）[34]可以被视为一项感知任务，用于评估3D占用的想法。对于以视觉为中心的模型来说，利用时间信息作为几何先验来重建几何感知的3D占用是直观的，然而之前的尝试[17，20，5，27]未能解决这一问题。从粗到细的方法也有利于以可承受的成本改进3D几何表示，而单阶段方法忽略了这一点[17，27，5]。此外，随着以视觉为中心的解决方案[14]的盛行，社区仍在寻求一种实用的方法，以全栈自动驾驶精神评估3D占用率。

针对上述这些问题，我们提出了OccNet，这是一种以视觉为中心的多视图管道，具有级联体素解码器，以在时间线索的帮助下重建3D占用，以及支持广泛驾驶任务的特定任务头。OccNet的核心是一个紧凑且具有代表性的3D占用嵌入来描述3D场景。为了实现这一点，与先前文献[21，7，36]中从图像特征直接生成体素特征或仅使用BEV特征不同，OccNet采用级联方式从BEV特征解码3D占用特征。解码器采用渐进式方案，通过基于体素的时间自注意和空间交叉注意来恢复高度信息，并与可变形的3D注意模块捆绑在一起，以提高效率。配备了这样的3D占用描述符，OccNet同时支持一般的3D感知任务，并促进下游规划任务，即3D占用预测、3D检测、BEV分割和运动规划。为了公平地比较各种方法，我们基于nuScenes数据集[4，10]构建了OpenOcc，这是一个具有密集和高质量注释的3D占用基准。它包括34149个带注释的帧，具有超过14亿个3D占用单元，每个单元被分配给16个类中的一个，用于描述前景对象和背景内容。与稀疏的替代方案相比，这种密集且语义丰富的注释利用视觉模型进行卓越的3D几何学习。它还考虑了对象运动和方向流注释，可扩展到规划任务。

我们在OpenOcc基准上评估了OccNet，实证研究从三个方面证明了3D占用作为场景表示相对于传统替代方案的优越性：1）更好的感知。3D占用有助于从仅视觉模型中获取3D几何结构，这可以通过与基于激光雷达的方法相比的点云分割性能以及通过基于占用的预训练或联合训练增强的3D检测性能来证明。2）更好的规划。更准确的感知也转化为计划绩效的提高。3）密集更好。在监督仅视觉模型方面，密集的3D占用比稀疏的形式更有效。在OpenOcc基准测试中，OccNet的性能优于最先进的技术，例如TPVFormer[17]，在语义场景完成任务中相对提高了14%。与FCOS3D[37]相比，当对小规模数据进行微调时，在OccNet上预先训练的检测模型性能提高了约10点。对于基于3D占用的运动规划任务，与基于BEV分割或3D盒的规划策略相比，我们可以将碰撞率降低15%-58%。

总之，我们的贡献有两个方面：（1）我们提出了OccNet，这是一种以视觉为中心的管道，具有级联体素解码器，用于使用时间线索生成3D占用。它可以更好地捕捉物理世界的细粒度细节，并支持广泛的驾驶任务。（2）基于所提出的具有密集和高质量注释的OpenOcc基准，我们展示了OccNet的有效性，并在感知和规划任务方面获得了明显的性能提升。一个初步的结论是，3D占用作为场景表示，优于传统的替代方案。

2.相关工作

2.1 3D对象检测

3D对象检测[33，37，21，25]采用3D盒子作为AD中感知的目标，因为盒子形式对于下游基于规则的方法来说是结构化的。这样的表示将具有不同形状的3D对象抽象为标准化的长方体，因此只关心前景对象，而过于简化了对象形状。相比之下，3D占用是对物理世界的细粒度描述，可以区分各种形状的对象。

2.2 激光雷达分割

激光雷达分割[41，29]的任务是点级3D场景理解。它需要点云作为输入，这是昂贵且不太便携的。由于激光雷达在3D场景描述中固有地存在有限的感知范围和稀疏性，因此使用这种管道对整体3D场景语义理解[34]并不友好。

2.2 3D重建和渲染

多年来，从2D图像[11，28]推断物体或场景的3D几何结构在计算机视觉中很普遍，但也很有挑战性。该领域中的大多数方法[31，6，35]都处理单个对象或场景。对于AD应用来说，这是不可行的，因为它需要很强的泛化能力。请注意，3D重建和渲染更多地关注场景几何体和视觉外观的质量。它较少关注模型效率和语义理解。

2.4 语义场景完成

本工作中讨论的占用预测的定义与SSC最相似[34]。MonoScene[5]首先采用U-Net从单个单目RGB图像中推断出具有语义标签的密集3D占用。最近在arXiv发布了一系列相关作品。我们认为它们是同时发生的，并在下面简要讨论。VoxFormer[20]利用深度估计在两阶段框架中设置体素查询。OccDepth[27]还采用了立体环境中的深度感知精神，通过蒸馏来预测语义占用。TPVFormer[17]采用基于激光雷达的稀疏3D占用作为监督，并提出了一种三视角视图表示来获得特征。王等人[38]提供了一个精心设计的居住基准，可以为社区提供便利。

尽管与我们在语义KITTI[3]和NYUv2[32]（单眼或RGB-D）方面的工作不同，但先前或同时发表的文献一致忽略了时间上下文的采用。利用历史体素特征是直接的；特斯拉对此进行了验证[2]。但没有向公众提供任何技术细节或报告。此外，我们将我们的工作定位为第一个将占用作为一个通用描述符来研究，该描述符可以增强超出检测范围的多个任务。

3.方法论

在本文中，我们提出了一个有效且通用的框架，名为OccNet，它从图像中获得稳健的占用特征，并支持多个驾驶任务，如图2所示。我们的方法包括两个阶段，重建占用和利用占用。我们将桥接部分称为占用描述符，这是对驾驶场景的统一描述。

占用区重建

该阶段的目标是获得用于支持下游任务的代表性占用描述符。受BEV感知的快速发展[21，7，22]的激励，OccNet被设计为将该增益用于3D空间中的体素预测任务。为了实现这一点，作为最简单的架构，在下游任务中单独使用BEV功能不适合三维空间中的高度感知任务。从一个极端到另一个极端，直接从图像中构建体素特征具有巨大的计算成本。我们将这两个极端称为BEVNet和VoxelNet，OccNet的设计在它们之间找到了平衡，以可承受的成本实现了最佳性能。重建阶段首先从周围图像中提取多视角特征Ft，并将其与历史BEV特征Bt-1和当前BEV查询Qt一起输入BEV编码器，以获得当前BEV特征。BEV编码器遵循BEVFormer[21]的结构，其中历史BEV特征Bt−1、当前BEV查询Qt和图像特征Ft通过时空变换器块来获得当前BEV特征。然后，通过级联体素解码器将图像特征、历史和当前BEV特征一起解码为占用描述符。解码器的详细信息见第3.1节。

占用的开发

基于重建的占用描述符，可以部署广泛的驾驶任务。受Uni AD[14]的启发，优选每个表示的显式设计。直观地，3D语义场景完成[34]和3D对象检测附加在占用描述符上。沿着高度挤压3D占用网格图和3D框生成BEV分割图。这样的地图可以直接输入运动规划头，以及高级命令的采样器，通过argmin和GRU模块生成ego车辆轨迹。详细说明见第3.2节。

3.1 级联体素解码器

为了有效地获得更好的体素特征，我们在解码器中设计了级联结构，以逐步恢复体素特征中的高度信息。

从BEV到级联体素

基于直接使用BEV特征或从透视图直接重建体素特征会导致性能或效率下降的观察结果（见表9中的消融），我们将这种从BEV特征（Bt∈RH×W×CBEV）到所需体素特征（Vt∈RZ×H×W×CVoxel）的重建分解为N个步骤，称为级联结构。这里，H和W是BEV空间的2D空间形状，C是特征维度，Z是体素空间的期望高度。在输入的BEV特征和期望的级联体素特征之间，我们将具有不同高度的中间体素特征称为V′t，i∈RZi×H×W×Ci，其中Zi和Ci均匀分布在{1，N}和｛CBEV、CVoxel｝。如图2所示，Bt−1和Bt通过前馈网络提升到V′t−1，i和V′ti中，通过第i个体素解码器获得细化的V′ti，随后的步骤遵循相同的方案。每个体素解码器包括基于体素的时间自注意和基于体素空间交叉注意模块，并分别利用历史V′t−1，i和图像特征Ft来细化V′ti。模型逐步增加Zi并减少Ci，以有效且高效地学习最终占用描述符Vt。

基于体素的时间自注意

时间信息对于准确地表示驾驶场景至关重要[21]。给定历史体素特征V′t−1，i，我们通过自我载体的位置将其与当前占用特征V′t，i对齐。对于典型的自关注，每个查询都关注每个键和值，因此计算成本非常巨大，与2D情况相比，3D空间中的计算成本甚至增加了Z2倍。为了降低计算成本，我们设计了一种基于体素的高效注意力，称为3D可变形注意力（简称3D-DA），以处理计算负担。通过将其应用于基于体素的时间自关注，我们确保每个体素查询只需要与感兴趣的局部体素交互，从而使计算成本可承受。

3D可变形注意力

我们将传统的2D可变形注意力[40]扩展到3D形式。给定一个体素特征V′t，i∈RZi×H×W×Ci，一个具有特征q∈RCi和三维参考点p的体素查询，三维可变形注意力表示为：

其中，M是注意力头的数量，K是采样的关键数字，其中K≪ZiHW，Wm∈RCi×（Ci/M）和Wk∈R（Ci/M）×Ci是学习权重，Amk是归一化注意力权重，p+Δpmk是3D空间中的可学习样本点位置，其中通过体素特征的三线性插值来计算特征。

基于体素的空间交叉注意

在交叉注意力中，体素特征V′ti与具有2D可变形注意力的多尺度图像特征Ft相互作用[40]。每个第i个解码器直接对从相应体素到图像视图的Nref，i个3D点进行采样，并与采样的图像特征进行交互。这样的设计保持了高度信息并确保了体素特征的学习。

3.2 利用各种任务的占用率

OccNet用细粒度的占用描述符描述了3D空间中的场景，可以将其输入到各种驾驶任务中，而不会产生过多的计算开销。

语义场景完成

为了简单起见，我们设计了MLP头来预测每个体素的语义标签，并应用Focal loss[24]来平衡被占用体素和空体素之间的巨大数值不平等。此外，附加了具有L1损失的流头，以估计每占用体素的流速。

三维物体检测

受BEVFormer[21]中头部设计的启发，我们将占用描述符压缩到BEV中，然后应用基于查询的检测头部（可变形DETR[40]的不变量）来预测3D盒子。

BEV细分

根据ST-P3[13]中的时空融合感知结构，与3D对象检测一样，从BEV特征预测地图表示和语义分割。BEV分割头包括用于地图表示的可驾驶区域头和车道头，用于语义分割的车辆分割头和行人分割头。

运动规划

对于运动规划任务，可以将SSC或3D边界框中的预测占用结果转换为BEV分割，如图2所示。3D占用结果也沿着高度维度和3D框进行挤压。来自3D占用或3D框的每个BEV单元的所有语义标签被转换为0-1格式，其中1表示单元被占用，0表示空。然后，将这样的BEV分割图应用于安全成本函数，并计算采样轨迹上的安全、舒适和进度成本。注意，与3D盒子相比，占用场景完成中更丰富的背景信息导致更全面的安全成本函数，因此需要在这两种BEV分割之间对安全成本值进行归一化。通过随机速度、加速度和曲率对所有候选轨迹进行采样。在包括前进、左转和右转在内的高级命令的指导下，输出与成本最低的特定命令对应的轨迹。使用前视图视觉特征启用的GRU细化在该轨迹上进一步执行，作为ST-P3[13]，以获得最终轨迹。

4.OpenOcc

为了公平评估文献中的占用性能，我们引入了第一个名为OpenOcc的3D占用基准，该基准建立在主流的nuScenes数据集之上[4，10]。

与只有前置摄像头的SemanticKITTI[3]等现有同行相比，OpenOcc为周围的摄像头视图提供了相应的3D占用和流注释。

4.1基准概述

我们利用稀疏的激光雷达信息和3D盒子生成具有密集和高质量占用注释的占用数据。它包括用于所有700个训练和150个验证场景的34149个注释帧。我们在基准中注释了超过14亿个体素和16个类，包括10个前景对象和6个背景填充。此外，我们还考虑了前景对象运动，并对对象体素进行了额外的流注释。我们将我们的入住率数据与表2中的其他基准进行了比较，表明我们的基准可以提供最完整的场景表示，包括入住率和流量信息。如图3所示，SparseOcc[17]仅利用稀疏关键帧激光雷达数据对3D空间进行体素化，该空间过于稀疏，无法表示3D场景。相比之下，我们的占用率可以用流信息表示完整的场景，并高质量地捕捉局部细粒度的场景几何。

4.2 生成高质量注释

背景和前景的独立积累

为了生成密集表示，直观的做法是累积关键帧和中间帧的所有稀疏激光雷达点，以获得密集表示[3]。然而，由于运动物体的存在，通过坐标变换直接从中间帧累积点是有问题的。我们提出基于3D盒将激光雷达点拆分为静态背景点和前景点，并分别进行累积。然后我们可以在全局世界系统中积累静态背景点，在对象坐标系中积累对象点，以生成密集点。

注释的生成

给定密集的背景和对象点，我们首先对3D空间进行体素化，并根据标记点在体素。与现有的只有占用标签的基准不同，我们基于三维盒速度对体素的流速进行了注释，以便于进行运动规划等下游任务。仅使用关键帧会导致生成的占用数据的稀疏性，因此我们基于周围标记的体素，用来自中间帧的未标记LiDAR点对体素进行注释，以进一步提高数据密度。此外，由于nuScenes存在z轴上缺少平移的问题，我们通过完成场景来细化占用数据，例如填充道路上的洞以获得更高的质量。此外，我们通过跟踪光线将部分体素设置为从相机视图中不可见，这更适用于具有相机输入的任务。

5.实验

基准详细信息

我们在LiDAR坐标系中选择体积为V=[−50m，50m]×[−50m]×[-5m，3m]的体积来生成占用数据，并通过Δs=0.5m的分辨率将3D空间体素化为200×200×16的体素来表示3D空间。评估指标可参见补充。

OccNet详细信息

根据BEVFormer[21]的实验设置，我们使用两种类型的主干：从ImageNet[8]初始化的ResNet50[12]和从FCOS3D[37]初始化的ResNet101 DCN[12]。我们将纯电动汽车特征定义为Bt，其中H=200，W=200，CBEV=256。对于解码器，我们设计了N=4个占用特征映射V′t，i∈RZi×H×W×Ci，其中Zi=2i，C1=C2=128，C3=C4=64。对于体素空间交叉关注，我们对每个查询的体素中的Nref，i=4个点进行采样。默认情况下，我们用24个时期训练OccNet，学习率为2×10−4。

5.1主要结果

语义场景完成

在表3和图4中，我们将OccNet与以前最先进的语义场景完成任务方法进行了比较。我们通过用建立在BEV特征图上的场景完成头代替检测头来再现BEVDet4D[15]、BEVDepth[19]和BEVDet[16]，如表3所示，OccNet在很大程度上优于这些方法。与BEV特征图相比，我们的占有描述符更适合于体素预测任务。我们还将OccNet与针对周围3D语义占用预测任务开发的TPVFormer[17]进行了比较，并且我们的模型在mIOU方面超过了它3.31个点（26.98对23.67），表明占用描述符在场景表示方面优于TPV特征。请注意，TPVFormer在汽车、卡车和拖车方面超过了OccNet，因为这三个对象的样本在基准测试中相对较大，并且TPVFormr从它们的采样策略中学习到了这些类的更好特征。然而，对于较小尺寸的物体，如行人和交通锥，我们的方法可以优于TPVFormer[17]，在表3中有10分的大幅度余量。

激光雷达细分的占用率

占用是三维空间中点的体素化表示，当Δs时，语义场景完成相当于语义激光雷达预测任务→ 0。我们通过基于相关体素标签分配点标签，将语义占用预测转移到激光雷达分割中，然后在mIoU度量上评估模型。如表15所示，在没有激光雷达监督的情况下，给定相机作为输入，OccNet可以在mIoU方面与激光雷达分割模型RangeNet++[29]进行比较（60.46对65.50），并且OccNet甚至可以在自行车的IoU方面优于RangeNet++（32.58对21.30）。与TPVFormer[17]相比，OccNet在mIoU方面也优于它2分。

3D检测占用率

在场景完成任务中，可以对前景对象的位置进行粗回归，这有助于3D盒回归的3D检测任务。如表5所示，场景完成和3D检测任务的联合训练可以提高我们所有三个模型的检测器性能，包括BEVNet、VoxNet和OccNet，在mAP和NDS方面。请注意，当计算依赖于3D盒的精确中心距离和IoU的度量时，Δs=0.5m的占有率的体素化表示过于粗糙，因此随着联合训练，mATE和mASE略有增加。

用于3D检测和BEV分割的预训练占用率

在语义场景完成任务上训练的OccNet由于在占用描述符中重建的场景，可以获得3D空间的一般表示。因此，学习到的占用描述符可以通过模型微调直接转移到下游的3D感知任务。如图5所示，在不同规模的训练数据集中，预训练的OccNet在3D检测上的模型性能优于在FCOS3D[37]检测器上预训练的模型性能，mAP和NDS的性能增益约为10点。我们还比较了BEV分割任务的占用预训练和检测预训练，表明占用预训练可以帮助BEV分割在语义和地图分割的微调阶段获得更高的IoU，如表6所示。

规划占用

利用上游任务的预测结果，即边界框和占用率，可以通过成本滤波器和GRU细化模块[13]获得最终轨迹，并使用BEV分割输入。为了获得这些分割结果，我们在BEV空间中对OccNet的输出进行光栅化。我们使用OccNet的预测来比较边界框和占用的光栅化结果。我们还将我们的结果与ST-P3的直接分割结果进行了比较[13]。为了进行公平的比较，我们采用了与ST-P3相同的设置，只保留了车辆和行人等级。为了更好地进行比较，我们还添加了基本事实光栅化输入。如表7所示，通过使用占用的地面实况来过滤轨迹，可以获得最佳性能。对于预测结果，基于OccNet的占用预测，碰撞率可以降低15%-58%。我们还使用所有16类占用进行了实验，这表明全类占用可以提高L2距离的性能。如图6所示，全类占用的规划可以在可行区域内做出决策，以避免背景对象的碰撞。

5.2 讨论

模型效率

在表8中，我们比较了不同模型在语义场景完成任务中的性能。与BEVNet和VoxelNet相比，OccNet在mIOU和IoUgeo方面可以获得最佳的性能，具有效率和有效性。

不规则对象

如图7所示，用3D盒子或交通标志等背景材料来表示不规则物体（如施工车辆）既困难又不准确。我们将3D框转换为体素，以比较表9中对不规则对象的3D检测和占用任务，验证占用可以更好地描述不规则对象。为了研究体素大小的影响，我们还生成了Δs=0.25m的数据集。随着Δs从0.5米减少到0.25米，3D盒子和占用之间的性能差距增加，因为更细的粒度可以更好地描述不规则的物体。

密集与稀疏占用

与稀疏占用相比，密集占用可以帮助详细描述背景和前景对象的完整几何结构，如图3所示。直观地说，由于信息输入更丰富，密集占用更适合3D感知和运动规划。如图5所示，我们验证了在密集占用上预训练的模型可以更多地有利于下游的3D检测任务。

6.结论

我们深入探讨了3D占用作为场景表示的潜力，并提出了一个通用框架OccNet来评估这一想法。对各种下游任务的实验验证了我们方法的有效性。还为社区提供了具有密集和高质量标签的OpenOcc基准测试。

限制和未来工作

目前，注释仍然基于完善的数据集。利用自监督学习进一步降低人工标注成本是一个有价值的方向。我们希望占用框架能够成为自动驾驶的基础模型。

往期回顾

史上最全综述 | 3D目标检测算法汇总！（单目/双目/LiDAR/多模态/时序/半弱自监督）

（一）视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

视频官网：www.zdjszx.com

（二）国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

（三）【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群