基于视图聚合的联合三维生成与目标检测

摘要
我们提出AVOD，一个用于自主驾驶场景的聚合视图对象检测网络。提出的神经网络结构使用LIDAR点云和RGB图像生成由两个子网络共享的特征：区域建议网络（RPN）和第二级检测器网络。提出的RPN使用能够在高分辨率特征地图上执行多模态特征融合的新体系结构来为道路场景中的多个对象类生成可靠的3D对象建议。
利用这些建议，第二阶段检测网络执行精确的面向3D边界盒回归和类别分类，以预测三维空间中物体的范围、方向和分类。我们提出的体系结构在KITTI 3D目标检测基准[1]上产生最新结果，同时以低内存占用实时运行，使得它适合在自主车辆上部署。代码是：https://github.com/kujason/avod

一、引言
近年来，深层神经网络在二维目标检测任务上取得的显著进展并没有很好地转移到三维目标检测上。达到了90%以上的平均精度（AP），而最高得分的3D汽车检测器在同一场景只达到70%的AP。造成这种差距的原因是由于在估计问题中添加三维而引起的困难、3D输入数据的低分辨率、以及作为距离的函数的其质量的恶化。此外，与2D对象检测不同，3D对象检测任务需要估计定向边界框（图1）。
与2D对象检测器类似，大多数用于3D对象检测的最新深度模型依赖于用于3D搜索空间缩减的3D区域建议生成步骤。使用区域建议允许在稍后的检测阶段通过更复杂和计算上更昂贵的处理产生高质量的检测。但是，提案生成阶段的任何遗漏实例在下列阶段无法恢复。因此，在区域建议生成阶段实现高召回对于良好的性能至关重要。

区域建议网络（RPN）是在Faster-RCNN[2]中提出的，并且已经成为二维目标检测器中主要的建议生成器。RPN可以被认为是弱模态检测器，提供高召回率和低精度的建议。这些深层结构很有吸引力，因为它们能够与其他检测阶段共享计算上昂贵的卷积特征提取器。
然而，将这些RPNS扩展到3D是一项非平凡的任务。更快的R-CNN RPN架构是为密集、高分辨率的图像输入量身定制的，其中对象通常占据特征映射中的多个像素。当考虑稀疏且低分辨率的输入时，例如前视图[3]或鸟瞰图(BEV)[4]点云投影，该方法不能保证有足够的信息来生成区域建议，特别是对于小对象类。
本文旨在通过提出AVOD（用于自主驾驶的聚合视图对象检测体系结构）来解决这些困难。所提出的架构提供以下贡献：
●受用于2D目标检测的特征金字塔网络(FPN)[5]的启发，我们提出了一种新的特征提取器，该特征提取器从LIDAR点云和RGB图像生成高分辨率特征图，允许场景中的小类定位。
●我们提出一个特征融合区域建议网络（RPN），它利用多种模式为小类产生高召回区域建议。
●我们提出了一种符合盒几何约束的新的3D边界盒编码，允许更高的3D定位精度。
●所提出的神经网络结构利用RPN阶段的1×1卷积，以及3D锚点投影的固定查找表，允许高计算速度和低内存占用，同时保持检测性能。
上述贡献导致一种以低计算成本和内存占用提供最新检测性能的体系结构。最后，我们将网络集成到我们的自主驾驶堆栈中，并在更极端的天气和光照条件下对新场景和检测进行概括，使之成为在自主车辆上部署的适当候选。

二。相关工作
用于提案生成的手工制作特征：在3D区域提案网络(RPN)[2]出现之前，3D提案生成算法通常使用手工制作的特征来生成小组候选框，以检索3D空间中的大多数对象。3DOP[6]和Mono3D[7]使用来自立体点云和单眼图像的各种手工制作的几何特征来在能量最小化框架中对3D滑动窗口进行评分。最上面的K个评分窗口被选择为区域建议，然后被修改的快速RCNN[？生成最终的3D检测。我们使用区域建议网络，从BEV和图像空间学习特征，以高效方式生成更高质量的建议。
建议的自由单镜头检测器：单镜头对象检测器也被提出作为RPN自由体系结构的3D对象检测任务。VeloFCN[3]将LIDAR点云投影到前视图，该点云用作全卷积神经网络的输入，以直接生成密集的3D边界框。3D-FCN[8]通过在由LIDAR点云构建的3D体素网格上应用3D卷积来扩展这个概念，以产生更好的3D边界框。我们的两阶段架构使用RPN来检索道路场景中的大多数对象实例，与这两个单镜头方法相比，提供了更好的结果。VoxelNet[9]通过编码具有逐点特征而不是占用值的体素来进一步扩展3D-FCN。然而，即使使用稀疏的3D卷积运算，VoxelNet的计算速度仍比我们提出的体系结构慢3×，这在汽车和行人类别上提供了更好的结果。
基于单眼的建议生成：最新技术的另一个方向是使用成熟的2D对象检测器来生成2D中的建议，然后通过模态程度回归将其挤压到3D。这种趋势始于[10]的室内物体检测，它激发了.stumbased PointNets(F-PointNet)[11]使用点网[12]的点状特征代替点直方图进行范围回归。虽然这些方法在室内场景和亮光照明的室外场景中工作良好，但是在更极端的室外场景中它们预期表现不佳。任何未命中的2D检测都将导致未命中的3D检测，因此，在这种极端条件下这些方法的泛化能力尚未得到证明。
LIDAR数据比图像数据变化小得多，在第四节中，我们显示AVOD对噪声LIDAR数据和光照变化是鲁棒的，因为它是在雪景和低光条件下测试的。
基于单眼的3D物体检测器：另一种利用成熟的2D物体检测器的方法是使用先验知识仅从单眼图像执行3D物体检测。Deep MANTA[13]提出一种基于单目图像的多任务车辆分析方法，该方法同时优化区域建议、检测、2D盒回归、零件定位、零件可见性和3D模板预测。该体系结构需要与几种类型的车辆相对应的3D模型的数据库，使得所提出的方法很难推广到不存在此类模型的类。Deep3DBox[14]建议通过利用3D边界框的透视投影应该紧密地适合其2D检测窗口这一事实，将2D对象检测器扩展到3D。然而，在第四节中，与使用点云数据的方法相比，这些方法在3D检测任务上执行得很差。

3D区域建议网络：3DRPN之前已经在[15]中提出用于从RGBD图像中检测3D对象。然而，据我们所知，MV3D[4]是唯一针对自主驾驶场景提出3DRPN的体系结构。MV3D通过将BEV特征映射中的每个像素对应到多个先前的3D锚点，将更快的R-CNN[2]的基于图像的RPN扩展到3D。
然后，这些锚点被馈送到RPN，以生成用于从BEV、[3]的前视图和图像视图特征映射创建特定于视图的特征作物的3D建议。利用深度融合方案结合来自这些特征作物的信息，产生最终的检测输出。然而，这种RPN架构对于BEV中的小对象实例并不适用。当由卷积特征提取器进行下采样时，小实例将占据最终特征图中像素的一小部分，导致没有足够的数据来提取信息特征。我们的RPN体系结构旨在将图像和BEV特征映射中的全分辨率特征作物作为输入融合到RPN，从而允许为较小的类生成高召回建议。此外，我们的特征提取器提供全分辨率的特征图，这显示出在检测框架的第二阶段对小目标的定位精度有很大帮助。
三、AVOD体系结构
如图2所示，提出的方法使用特征提取器从BEV图和RGB图像中生成特征图。然后，RPN使用两个特征映射来生成非定向区域建议，这些建议被传递到检测网络以进行维度细化、方向估计和类别分类。
A.从点云和图像生成特征地图
我们遵循[4]中描述的过程，以0:1米分辨率从点云的体素网格表示生成六通道BEV图。点云在[40;40]×[0;70]米处裁剪，以包含摄像机视场内的点。BEV图的前5个通道用每个网格单元中点的最大高度编码，这些点由沿Z轴[0;2:5]米之间的5个等切片生成。第六个BEV通道包含每个单元计算的点密度信息为min(1:0；log(log 16 N+1))，其中N是单元中的点数。。
B.特征提取器
所提出的体系结构使用两个相同的特征提取器体系结构，每个输入视图一个。全分辨率特征提取器如图3所示，由两个部分组成：编码器和解码器。编码器在VGG-16[16]之后进行建模，经过一些修改，主要是将信道数量减少一半，并在conv-4层切断网络。因此，编码器以M×N×D图像或BE图作为输入，产生M8×N8×D_特征图F。KeTI数据集中的平均行人在BEV中占据0:8×0:6米。这转化为一个8×6像素区域的BEV地图与0:1米分辨率。下采样8×的结果是这些小类在输出特征图中占据不到一个像素，即没有考虑卷积引起的接收场的增加。受特征金字塔网络（FPN）[5]的启发，我们创建了一个自底向上解码器，该解码器学习将特征映射上采样回原始输入大小，同时保持运行时间速度。译码器将编码器的输出F作为输入，产生一个新的M×N×D~特征图。图3显示了解码器执行的操作，包括通过conv-transpose操作对输入进行上采样，从编码器连接相应的特征图，最后通过3×3卷积操作将两者融合。最终的特征图具有高分辨率和表示能力，并且由RPN和第二级检测网络共享。
C 多模式融合区域建议网络
类似于2D两级检测器，提出的RPN回归一组先验3D盒与地面真值之间的差异。这些先前的框被称为锚，并且使用图4所示的轴对齐的边框编码进行编码。锚箱由质心（tx；ty；tz）和轴对齐尺寸（dx；dy；dz）参数化。为了生成3D锚定网格，在BEV中以0:5米的间隔采样(tx;ty)对，而tz是基于传感器在地面以上的高度确定的。通过聚类每个类的训练样本来确定锚的维度。在BEV中没有3D点的锚通过积分图像被有效去除，导致每帧80_100K非空锚。
通过多视图作物和大小调整操作提取特征作物：为了从视图特定的特征映射中提取每个锚的特征作物，我们使用作物和大小调整操作[17]。给定3D中的锚点，通过将锚点投影到BEV和图像特征图上来获得两个感兴趣区域。然后使用相应的区域从每个视图中提取特征地图作物，然后将特征地图作物的双线性调整到3×3以获得等长的特征向量。这种提取方法得到的特征量在两种视图中都遵循投影锚点的纵横比，与Faster-RCNN最初使用的3×3卷积相比，提供了更可靠的特征量。
通过1×1卷积层进行降维：在某些情况下，区域建议网络需要为GPU存储器中的100K锚保存特征作物。试图直接从高维特征映射中提取特征作物会给每个输入视图带来很大的内存开销。例如，假设32位浮点表示，从256维特征映射中提取100K锚的7×7个特征作物需要大约5GB的内存。此外，用RPN处理这种高维特征作物极大地增加了其计算需求。受[18]中所用方法的启发，我们提出在每个视图的输出特征映射上应用1×1卷积核，作为一种有效的降维机制，它学习选择对区域建议生成的性能有很大贡献的特征。这减少了D~×计算锚特定特征作物的内存开销，允许RPN仅使用几兆字节的额外内存处理数万锚的融合特征。

3D建议生成：裁剪和大小调整操作的输出是两个视图中大小相等的特征裁剪，它们通过逐个元素的平均操作进行融合。大小为256的完全连接的两个任务特定分支[2]使用融合的特征作物来回归轴对齐的对象建议框并输出对象/背景“客观性”得分。通过计算（tx；ty；tz；dx；dy；dz）、锚杆与地面之间的质心差和尺寸差进行三维盒回归。
真边界框。平滑L1损失用于3D盒回归，交叉熵损失用于“客观性”。与[2]类似，在计算回归损失时忽略背景锚点。通过计算锚和地面真值边界框之间的BEV中的2DIoU来确定背景锚。对于汽车类，IoU小于0:3的锚被认为是背景锚，而IoU大于0:5的锚被认为是对象锚。对于行人和骑自行车的人类，对象锚IoU阈值降低到0:45。为了去除冗余建议，在BEV中采用2D非最大值抑制（NMS）在IoU阈值0：8时保持训练期间最多1024个建议。在推理时，300个建议用于汽车类，而1024个建议用于行人和骑自行车者。
D.第二阶段检测网络
3D包围盒编码：in [ 4 ]，陈等人。声称8角盒编码比先前在[15]中提出的传统轴对齐编码提供更好的结果。然而，8角编码没有考虑3D边界框的物理约束，因为边界框的顶角被迫与底部的那些角对齐。为了减少冗余度并保持这些物理约束，我们提出用四个角和两个高度值对包围盒进行编码，这两个高度值代表了从传感器高度确定的来自地面的顶角和底角偏移。因此，我们的回归目标是（x1::x4；y1::y4；h1；h2），建议和地面真值框之间的角和高度偏离地面。为了确定角点偏移，我们将提案的最近角点与BEV中地面真值框的最近角点对应。所提出的编码将盒表示从过参数化的24维向量减少到10维向量。

显式方向向量回归：为了从3D边界框中确定方向，MV3D[4]依赖于估计边界框的范围，其中方向向量假设在框的长边方向。这种方法存在两个问题。首先，对于检测出的不总是遵守上述规则的对象，如行人，此方法会失败。其次，所得到的取向只知道±π弧度的加性常数。由于角点顺序没有保留在角点到角点最近的匹配中，因此丢失了方向信息。
图1给出了一个例子，说明同一个矩形边界框如何可以包含两个具有相反方向矢量的对象实例。我们的体系结构通过计算（xθ；yθ）=（cos（θ）；sin（θ））来解决这个问题。这个方向向量表示隐式地处理角度包装，因为每个θ2[π；π]都可以由BEV空间中的唯一单位向量表示。我们使用回归的方向向量来解决边界框方向估计中的模糊性，从采用的四角表示，因为这个实验发现比直接使用回归的方向更准确。具体地说，我们提取边界框的四个可能方向，然后选择最接近显式回归方向向量的方向。
生成最终检测：与RPN类似，多视图检测网络的输入是通过将建议投影到两个输入视图中而产生的特征作物。由于建议的数量比锚的数量低一个数量级，所以使用深度为D~=32的原始特征图来生成这些特征作物。来自两个输入视图的裁剪被调整到7×7，然后与逐个元素的平均操作融合。
单组大小为2048的三层完全连接的层处理融合的特征作物，以便为每个建议输出箱回归、方向估计和类别分类。与RPN类似，对于边界盒和方向向量回归任务，我们采用结合两个平滑L1损失的多任务损失和分类任务的交叉熵损失。只有当建议在BEV中至少具有0:65或0:552DIoU，并且分别具有用于汽车和行人/骑自行车者的地面真值盒时，才在评估回归损失时考虑这些建议。为了消除重叠检测，在0:01的阈值处使用NMS。

E.培训
我们训练两个网络，一个用于汽车班，一个用于行人和自行车班。RPN和检测网络采用端到端方式联合训练，使用分别包含512和1024ROI的一个图像的小批量。使用ADAM优化器对网络进行120K迭代训练，初始学习速率为0:0001，每30K迭代，衰减系数为0:8，衰减系数为指数衰减。
四、实验和结果
我们在KITTI对象检测基准[1]的三个类上测试了AVOD在提案生成和对象检测任务上的性能。我们遵循[4]将所提供的7481个训练帧分割成大约1∶1的训练和验证集。对于评估，我们遵循KITTI提出的简单、中等、困难的分类。我们评估和比较了我们实现的两个版本，使用类似于[4]的VGG类特征提取器的Ours，以及使用在第III-B节中描述的建议的高分辨率特征提取器的Ours(Feature Pyramid)。
3D建议召回：使用0:53DIoU阈值的3D边界框召回评估3D建议生成。我们将RPN的三个变体与建议生成算法3DOP[6]和Mono3D[7]进行比较。图5显示了我们的RPN变体（3DOP和Mono3D）的召回率与建议数量的关系曲线。可以看出，我们的RPN变体在所有三个类上都远远超过3DOP和Mono3D。例如，我们的基于特征金字塔的融合RPN在汽车类上实现了86%的3D召回，每帧只有10个建议。3DOP和Mono3D在汽车类上的最大召回率分别为73:87%和65:74%。这个差距也出现在步行和骑自行车的阶层，我们的RPN实现了超过百分之二十的回忆增加在1024个建议。这种性能上的巨大差距表明基于学习的方法优于基于手工制作的特征的方法。对于汽车类，我们的RPN变体仅50个建议实现了91%的召回，而MV3D[4]报告需要300个建议来实现相同的召回。应当指出，MV3D没有公开提供汽车的建议结果，也没有对行人或骑自行车的人进行测试。
三维物体检测:使用3D和BEV AP和平均航向相似度(AHS)评估3D检测结果，对于汽车等级为0:7IoU阈值，对于行人和自行车等级为0:5IoU阈值。AHS是平均方向相似度（AOS）[1]，但是使用3DIOU和全局方向角而不是二维IOU和观察角来评估，消除了度量对定位精度的依赖。我们将其与验证集中公开提供的MV3D[4]和Deep3DBox[14]的检测进行比较。必须注意的是，目前没有公开发布的方法为3D对象检测任务提供关于步行者和骑自行车者的类的结果，因此只对汽车类进行比较。在验证集（表I）中，我们的架构在中等设置时比MV3D性能高2:09%，在硬设置时比MV3D性能高4:09%。然而，在中等和硬设置下，AVOD与MV3D相比，AHS分别增加了30：36%和28：42%。这可以归因于III-D节中讨论的方向矢量方向的丢失，导致方向估计高达±π弧度的加性误差。为了验证这个断言，图7显示了AVOD和MV3D的结果与KITTI的地面事实相比的可视化。可以看到，MV3D为几乎一半的汽车分配了错误的方向。另一方面，我们提出的体系结构是正确的。

面向所有汽车的场景。正如所预期的，Deep3DBox与我们提出的体系结构在3D定位性能方面差距很大。从图7中可以看出，Deep3DBox无法在3D中精确定位大部分车辆，这进一步加强了基于融合的方法优于基于单眼的方法。我们还将架构在KITTI测试集上的性能与MV3D、VoxelNet[9]和F-PointNet[11]进行了比较。测试集结果由评估服务器直接提供，而评估服务器不计算AHS度量。表II示出了KoTI测试集上AVOD的结果。可以看到，即使只使用用于特征提取的编码器，我们的架构在所有三个类上都表现得很好，同时比下一个最快的方法，F-PointNet.然而，一旦我们添加了我们的高分辨率特征提取器（Feature Pyramid），我们的架构在3D对象检测方面就优于汽车类中的所有其他方法，在硬（高度遮挡或远）实例中，与性能第二好的方法F-Po相比，具有显著的4:19%的差距。国际互联网。在步行类中，我们的特征金字塔架构在BEV AP中排名第一，而在使用3DAP的硬实例中得分略高于F-PointNet。在自行车课上，我们的方法不适用于F点网。我们认为，这是由于KITTI数据集中骑行者实例数量较少，这导致对以下内容的偏向
行人在行人/自行车网络中的行人检测。运行时和内存需求：我们使用FLOP计数和参数的数量来评估所提议网络的计算效率和内存需求。我们最终的特征金字塔融合架构使用了大约38:073万个参数，大约是MV3D的16%。我们提出的体系结构参数的数量。此外，我们的特征金字塔融合架构要求每帧231:263亿FLOP，允许它在TITAN Xp GPU上在0:1秒内处理帧，预处理需要20ms，推理需要80ms。这使得它比F-PointNet快1:7×同时保持了最先进的结果。最后，我们提出的体系结构在推理时只需要2GB的GPU内存，使得它适合于在自主车辆上部署。

消融研究：
表三显示了改变不同的超参数对AP和AAHS测量的性能、模型参数的数量以及建议的体系结构的FLOP计数的影响。基本网络使用全文所描述的超参数值，以及MV3D的特征提取器。nly特征和其他使用大小为1×1的特征作物作为RPN阶段的输入。我们还研究了图4中所示的不同边界盒编码方案的效果，以及根据AP和AHS，添加方向回归输出层对最终检测性能的影响。最后，我们对比了MV3D提出的高分辨率特征提取器的效果。
RPN输入变化：图5显示了原始RPN和BEV仅RPN在验证集上的三个类上没有特征金字塔提取器的情况下的召回与建议数量的关系曲线。对于行人和骑自行车的阶层，在RPN阶段融合来自两个视图的特征显示提供10：1％和8：6％的回忆比BEV的唯一版本增加1024个建议。添加我们的高分辨率特征提取器将此差异增加到相应类的10:5%和10:8%。对于car类，添加图像特征作为RPN的输入，或者使用高分辨率特征提取器似乎不会
提供比BEV版本更高的召回价值。
我们将此归因于这样一个事实，即来自car类的实例通常在输入BEV映射中占据较大的空间，在相应的输出低分辨率特征映射中提供足够的特征以可靠地生成对象建议。建议召回的增加对最终检测性能的影响可以在表III中观察到。在RPN阶段使用图像和BEV特征导致AP分别比仅用于步行和骑自行车的BEV版本增加6:9%和9:4%。
包围盒编码：我们通过训练另外两个网络来研究图4中所示的不同包围盒编码的效果。第一网络使用回归的方向向量作为最终的方框方向，估计轴对齐的边框。第二和第三网络使用我们的4角和MV3D的8角编码，没有像III-D节中所描述的额外的方向估计。NCOSTEN提供了比所有三个类的基础网络低得多的AHS。这种现象可归因于III-D节中所描述的取向信息的丢失。

特征提取器：将特征提取器的检测结果与基于VGG的MV3D特征提取器的检测结果进行比较。对于汽车类，我们的金字塔特征提取器在AP和AHS中仅获得0：3%的增益。然而，在较小的类上的性能增益要大得多。特别地，我们在行人和骑自行车的课程上分别获得了19：3%和8：1%的AP增益。这表明，我们的高分辨率特征提取器是必不可少的，以实现对这两个类的最新结果，在计算要求略有增加。
定性结果：图6显示了RPN的输出以及3D和图像空间中的最终检测。在https://youtu.be/mDaqKICiHyA上提供了更多定性结果，包括雪地和夜景中运行的AVOD的结果。
五、结论
在这项工作中，我们提出了AVOD，一个针对自主驾驶场景的3D物体检测器。通过使用与多模态融合RPN架构耦合的高分辨率特征提取器，所提出的架构与现有技术不同，因此能够为道路场景中的小类生成精确的区域建议。此外，所提出的结构使用显式方向向量回归来解决从边界框推断出的模糊方向估计。在KITTI数据集上的实验表明，我们提出的体系结构在3D定位、方向估计和分类任务方面优于现有技术。最后，给出了该体系结构的实时运行和低内存开销。

REFERENCES
[1] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the kitti vision benchmark suite,” in Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012, pp. 3354–3361.
[2] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards realtime object detection with region proposal networks,” in Advances in Neural Information Processing Systems 28, 2015, pp. 91–99.
[3] B. Li, T. Zhang, and T. Xia, “Vehicle detection from 3d lidar using fully convolutional network,” in Proceedings of Robotics: Science and Systems, AnnArbor, Michigan, June 2016.
[4] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object detection network for autonomous driving,” in Computer Vision and Pattern Recognition, 2017. CVPR 2017. IEEE Conference on,.
[5] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, ´ “Feature pyramid networks for object detection,” in Computer Vision and Pattern Recognition, vol. 1, no. 2, 2017, p. 4.
[6] X. Chen, K. Kundu, Y. Zhu, A. Berneshawi, H. Ma, S. Fidler, and R. Urtasun, “3d object proposals for accurate object class detection,” in NIPS, 2015.
[7] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun, “Monocular 3d object detection for autonomous driving,” in Computer Vision and Pattern Recognition, 2016.
[8] B. Li, “3d fully convolutional network for vehicle detection in point cloud,” in IROS, 2017.
[9] Y. Zhou and O. Tuzel, “Voxelnet: End-to-end learning for point cloud based 3d object detection,” arXiv preprint arXiv:1711.06396, 2017.
[10] J. Lahoud and B. Ghanem, “2d-driven 3d object detection in rgb-d images,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 4622–4630.
[11] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum pointnets for 3d object detection from rgb-d data,” arXiv preprint
arXiv:1711.08488, 2017.
[12] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classification and segmentation,” arXiv preprint arXiv:1612.00593, 2016.
[13] F. Chabot, M. Chaouch, J. Rabarisoa, C. Teuliere, and T. Chateau, ` “Deep manta: A coarse-to-fine many-task network for joint 2d and 3d vehicle analysis from monocular image,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[14] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka, “3d bounding box estimation using deep learning and geometry,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[15] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 808–816.
[16] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
[17] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and K. Murphy, “Speed/accuracy trade-offs for modern convolutional object detectors,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
[18] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer, “Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 0.5 mb model size,” arXiv preprint arXiv:1602.07360, 2016.
[19] “Kitti 3d object detection benchmark,” http://www.cvlibs.net/datasets/ kitti/eval object.php?obj benchmark=3d, accessed: 2018-02-28.

基于视图聚合的联合三维生成与目标检测

猜你喜欢