pointfusion：深传感器融合估计的三维包围盒

https://www.arxiv-vanity.com/papers/1711.10871/

摘要

我们提出点融合pointfusion，一个通用的3D对象检测方法，利用图像和3D点云信息。与现有的方法，无论是使用多级管道或保持传感器和数据集特定的假设，点融合pointfusion概念上简单，应用不可知。图像数据和原始点云数据分别由 CNN和PooNETB架构独立处理。然后通过一个新的融合网络来组合所得到的输出，该网络利用输入的3D点作为空间锚来预测多个3D盒子假设和它们的置信度。我们评估点融合在两个独特的数据集：KITTI数据集，其特征在于利用激光雷达相机设置捕获的驾驶场景，和SUN-RGBD数据集捕捉室内环境与RGB-D相机。我们的模型是第一个能够在没有任何数据集特定模型调整的情况下，在这些不同的数据集上表现得更好或与最先进的数据集相媲美。

我们关注的是三维物体检测，它是影响自驾车机器人和无人驾驶机器人在内的大多数自主机器人系统的一个基本的计算机视觉问题。3D物体检测的目标是恢复场景中所有感兴趣对象的6自由度姿态和3D包围盒尺寸。虽然卷积神经网络（CNNs）的最新进展已经在复杂环境中实现了精确的2D检测（23, 21, 18），但是3D对象检测问题仍然是一个公开的挑战。从单一图像，甚至包括最近的深度学习方法，如〔20, 34〕的3D盒回归方法，仍然具有较低的精度，特别是在更长的深度估计方面。因此，许多现实世界的系统要么使用立体声，要么用激光雷达和雷达增强它们的传感器堆栈。激光雷达雷达混合传感器设置在自驾车小车中特别流行，通常由多级管道来处理，多级管道分别预处理每个传感器模态，然后使用专家设计的跟踪系统（如卡尔曼滤波器（4, 7））执行后期融合步骤。这样的系统简化了假设，并且在没有来自其他传感器的上下文的情况下做出决策。灵感来自于深入学习的成功处理不同的原始感官输入，我们提出了一个早期融合模型的3D BOX估计，直接学习到结合图像和深度信息优化。

相机和3D传感器的各种组合在该领域中被广泛使用，并且希望有一个单一算法，该算法推广到尽可能多的不同的问题设置。许多真实世界的机器人系统配备有多个3D传感器：例如，自主汽车通常具有多个LIDARs和潜在的雷达。然而，当前的算法通常假设单个RGB-D相机（30, 15），它提供RGB-D图像，或者单个激光雷达传感器（3, 17），它允许创建激光雷达深度和强度读数的局部前视图图像。许多现有的算法也作出强烈的领域特定的假设。例如，MV3D（3）假定所有对象可以在点云的自上而下的2D视图中被分割，该点对于共同的自驱动情况是有效的，但不推广到对象可以放置在彼此之上的室内场景中。此外，自顶向下的视图方法往往只对像汽车这样的对象进行很好的操作，而不适用于其他关键对象类，例如行人或自行车驾驶员。与上述方法不同，我们提出的融合架构被设计为3D传感器的放置、类型和数目的域不可知和不可知。因此，它是通用的，并且可以用于各种机器人应用。

在设计这样的通用模型时，我们需要解决将异构图像和3D点云数据相结合的挑战。以前的工作解决这个挑战，通过直接转换点云到卷积友好的形式。这包括将点云投影到图像（10）或对点云进行体化[30，16]。这两个操作都涉及有损数据量化，并且需要特殊的模型来处理激光雷达图像（32）或体素空间[25 ]中的稀疏性。相反，我们的解决方案保留了它们的本机表示中的输入，并使用异构网络架构来处理它们。特别是对于点云，我们使用了最近提出的POINTNET[ 22 ]架构的一个变型，它允许我们直接处理原始点。

我们从图像和稀疏点云的3D物体盒回归的深度网络有三个主要组成部分：一个现成的cnn（12），它从输入RGB图像作物中提取外观和几何特征，处理原始3D点云的POINTNET[ 22 ]的变体和融合子网络。它结合了两个输出来预测3D边界框。如图2所示，这种异构网络架构充分利用了两个数据源，而不引入任何数据处理偏差。我们的融合子网络具有一种新的密集3D盒预测结构，其中对于每个输入3D点，网络预测相对于该点的3D盒的拐角位置。然后，网络使用学习评分函数来选择最佳预测。该方法的灵感来自于空间锚（23）和稠密预测[13 ]的概念。直觉是使用输入的3D点作为锚来预测相对空间位置，减少了回归目标的方差，相比于直接回归每个角点的3D位置的结构。我们证明了密集预测结构优于弧。通过大幅度直接回归3D拐角位置的任务。

我们评估我们的模型上两个不同的3D对象检测数据集。KITTI数据集（9）集中在户外城市驾驶场景中，行人、骑自行车者和汽车在用摄像机激光雷达系统获取的数据中被注释。Sun-RGBD数据集（28）通过RGB-D相机记录在室内环境中，具有超过700个对象类别。我们表明，通过结合点融合与现成的2D对象检测器[23 ]，我们得到更好的结果，或与现有的最先进的方法设计KITTI（3）和Sun-RGBD（15, 30, 24），使用具有挑战性的3D对象检测度量。据我们所知，我们的模型是第一个获得竞争的结果在这些非常不同的数据集，证明了它的普遍适用性。

1. Related Work

我们概述了以前的工作6自由度物体姿态估计，这是与我们的方法有关。

基于几何的方法，许多方法集中于从单个图像或图像序列估计6自由度物体姿态。这些包括在2D图像和它们对应的3D CAD模型（1, 5, 35）之间的关键点匹配，或者将三维重建模型与地面真实模型对准以恢复物体姿态[26, 8 ]。古普塔等。〔11〕提出用美国有线电视新闻网预测语义分割图和目标位姿假设，然后利用ICP将假设与已知的对象CAD模型进行对齐。这些类型的方法依赖于强类别形状先验或地面真实对象CAD模型，这使得它们难以扩展到更大的数据集。相反，我们的通用方法估计没有对象类别知识或CAD模型的对象的6自由度姿态和空间尺寸。

扫描二维码关注公众号，回复： 4490858 查看本文章

从图像的3D盒回归，在深模型的最新进展极大地改善了2D对象检测，并且一些方法提出用全3D物体姿态来扩展目标。〔31〕使用R-CNN提出2D ROI和另一个网络来倒退目标姿态。〔20〕组合了一组深度学习的3D对象参数和2D ROI的几何约束，以恢复完整的3D框。项等人。〔34, 33〕通过聚类从对象模型中学习的三维体素模式，联合学习视点相关检测器和姿态估计器。虽然这些方法擅长于估计物体方位，但是从图像中定位3D物体通常是通过施加几何约束来处理的[20 ]，并且对于缺乏直接深度测量仍然是一个挑战。我们的模型的主要贡献之一是它学会有效地结合互补图像和深度传感器信息。

深度数据的三维盒回归.新的研究已经提出直接解决离散三维空间中的三维物体检测问题。宋等。〔29〕学习使用三维生成的3D特征对由3D滑动窗口生成的3D边界框建议进行分类。后续研究（30）使用区域提案网络（23）的3D变体来生成3D提案，并使用3D CuNETE处理体素化点云。李鸿章等人的类似做法。〔16〕侧重于检测车辆，并利用3D全卷积网络处理体素输入。然而，这些方法往往是昂贵的，因为离散的体积表示。作为一个例子，[ 30 ]花费大约20秒来处理一个帧。其他方法，如VeloFCN（17），专注于单个激光雷达的设置，并形成密集的深度和强度图像，这是用一个单一的2D美国有线电视新闻网处理。不同于这些方法，我们采用最近提出的PooTnNET[ 22 ]来处理原始点云。该设置可以容纳多个深度传感器，并且时间复杂度与距离测量的数量密切相关，而不考虑3D场景的空间范围.

2D-3D融合我们的论文是最相关的最新方法融合图像和激光雷达数据。陈等人的MV3D。[ 3 ]在自上而下的激光雷达视图中生成目标检测方案，并将它们投影到前激光雷达和图像视图，融合所有相应的特征做面向盒回归。这种方法假设一个单独的激光雷达设置和烘烤在限制性假设中，所有物体都在同一空间平面上，并且可以仅从点云的俯视图定位，该点云用于汽车而不是行人和骑自行车的人。相反，我们的方法没有场景或对象特定的限制，也没有限制使用的深度传感器的种类和数量。

2. PointFusion

在这一节中，我们描述了我们的点融合模型，它从一个2D图像作物和一个通常由一个或多个激光雷达传感器产生的相应的3D点云执行3D包围盒回归（见图1）。当我们的模型与一个提供2D对象作物（如23）的最先进的2D对象检测器相结合时，我们得到一个完整的3D物体检测系统。我们将PooToFixand探测器的理论上简单的组合变成一个单一的端到端模型到未来的工作，因为我们已经用最简单的两阶段设置获得了最先进的结果。

PointFusion有三个主要组成部分：点云网络的一个变体，它提取点云特征（图2A），提取图像外观特征的美国有线电视新闻网（图2B），以及融合网络的特征和输出的3D包围盒的融合网络。我们的点云和融合子组件的细节。我们还描述了融合网络的两种变体：香草全局架构（图2C）和一种新的密集融合网络（图2D）。

2.1. Point Cloud Network

我们使用QI等人的PointNet架构的变型来处理输入点云。〔22〕。PointNET率先使用对称函数（MAP POLLIN）来实现无序3D点云集处理中的排列不变性。该模型摄取原始点云并学习每个点的空间编码，以及聚集的全局点云特征。然后这些特征用于分类和语义分割。

PointNet具有许多期望的特性：它直接处理原始点而不进行像Voelel化或投影那样的有损操作，并且它与输入点的数量线性地缩放。然而，原始的点网公式不能用于3D回归框外。这里我们描述了我们对PotoNET2所做的两个重要的改变。

没有BatchNorm 在现代神经网络设计中，批量归一化已经成为不可缺少的，因为它有效地减少了输入特征中的协方差移位。在最初的PooTnNET实现中，所有完全连接的层后面都是一个批处理规范化层。然而，我们发现批量归一化阻碍了3D包围盒估计性能。批量归一化的目的是消除其输入数据的比例和偏差，但对于三维回归的任务，点位置的绝对数值是有帮助的。因此，我们的PooTNET变体已经删除了所有的批处理标准化层。

输入归一化 如设置中所描述的，通过找到可以投影到盒子上的场景中的所有点来获得图像包围盒的相应的3D点云。然而，3D点的空间位置与2D盒位置高度相关，这引入了不希望的偏差。PooTNET应用空间变压器网络（STN）对输入空间进行规范化。然而，我们发现，STN不能完全纠正这些偏见。相反，我们使用已知的摄像机几何结构来计算正则旋转矩阵R C。RC将穿过2D盒中心的光线旋转到相机框架的Z轴。这在图3中示出。

2.2. Fusion Network

融合网络作为输入使用CNN提取的图像特征和点网子网络所产生的对应点云特征。它的工作是组合这些特征并输出目标对象的3D边界框。在下文中，我们提出两个融合网络配方，一个香草全球融合网络，和一个新的密集融合网络。a vanilla global fusion network, and a novel dense fusion network.

全球融合网络如图2C所示，全局融合网络处理图像和点云特征，并直接回归目标包围盒的八个角的3D位置。我们实验了一些融合函数，发现两个向量的级联，然后应用多个完全连接的层，得到最佳性能。然后利用全球融合网络的损失函数：

其中X*是地面真值箱角，X i是预测的角点位置，L STN是引入的空间变换正则化损失，以加强所学的空间变换矩阵的正交性。全局融合网络的一个主要缺点是方差。回归目标X * i直接依赖于特定场景。对于自主驾驶，系统可以预期从1M到100M的检测对象。这种差异给网络带来负担并导致次优性能。为了解决这个问题，我们转向研究的二维物体检测问题的灵感。代替直接回归2D框，一种常见的解决方案是通过使用滑动窗口[6 ]或通过预测相对于空间锚（13, 23）的盒位移来生成对象建议。这些想法激发了我们密集的融合网络，这将在下面描述。

稠密融合网络 这个模型背后的主要思想是使用输入的3D点作为密集的空间锚。代替直接回归3D盒角的绝对位置，对于每个输入3D点，我们预测从该点到附近框的拐角位置的空间偏移。结果，网络对场景的空间范围变得不可知。图2C中示出了模型体系结构，我们使用点网的变种，输出点特征。对于每一点，这些都与全局点网特征和图像特征连接在N×3136输入张量中。密集融合网络使用多个层处理该输入，并输出3D边界框预测以及每个点的得分。在测试时间，选择具有最高得分的预测作为最终预测。具体而言，密集融合网络的损失函数为：

其中n是输入点的数目，xi*偏移是地面真箱角位置和第i个输入点之间的偏移，并且x i偏移包含预测偏移。L分数是分数函数的损失，我们将在下一节中深入解释。

2.3. Dense Fusion Prediction Scoring

L分数函数的目标是将网络聚焦在接近目标框的点上学习空间偏移。我们提出了两个评分函数：一个监督评分函数，它直接训练网络来预测一个点是否在目标包围盒内，以及一个无监督评分函数，它允许网络选择将导致最优预测的点。

监督评分法 监督得分损失训练网络预测一个点是否在目标框内。让我们将I点的偏移回归损失作为L i偏移，并将第i个点的二进制分类损失作为L i分数。

其中M i { 0, 1 }指示第i个点是否在目标包围盒中，L得分是交叉熵损失，惩罚了给定点是否在框内的不正确预测。如所定义的，该监督评分函数将网络聚焦在学习上，以预测目标包围盒内的点的空间偏移。然而，这个公式可能不会给出最佳的结果，因为盒子内最自信的点可能不是最好的预测点。

无监督评分无监督评分的目的是让网络直接学习哪些点可能给出最好的假设，无论它们是否最有信心地在对象框内。我们需要训练网络来分配高的信心到可能产生良好预测的那一点。该公式包括两个竞争损失项：对于所有点，我们更倾向于高置信度C i，然而，角预测误差与该置信度成正比。让我们定义L I偏移为点I的角偏移回归损失，然后损失变成：

其中w是两个术语之间的权重因子。以上，第二项编码对数奖金增加C I的信心。我们经验找到最好的W，并使用W = 0.1在我们所有的实验。

3. Experiments

3.1. Datasets

3.2. Metrics

3.3. Implementation Details

3.4. Architectures

3.5. Evaluation on KITTI

3.6. Evaluation on SUN-RGBD

4. Conclusions and Future Work

我们提出的点融合网络，准确地估计3D对象包围盒从图像和点云信息。我们的模型有两个主要贡献。首先，我们使用异构网络架构处理输入。原始点云数据直接利用PootNETs模型处理，避免了量化或投影等有损输入预处理。其次，我们引入了一种新的密集融合网络，它结合了图像和点云表示。它预测多个3D盒子假设相对于输入的3D点，作为空间锚，并自动学习选择最佳假设。我们表明，与相同的体系结构和超参数，我们的方法能够执行PAR或更好的方法相比，保持数据集和传感器特定假设在两个截然不同的数据集。未来的工作方向包括二维检测器和点融合相结合。网络到一个单一的端到端的3D检测器，以及扩展我们的模型与时间分量，以执行联合检测和跟踪视频和点云流。

5. Supplementary

5.1. 3D Localization AP in KITTI

除了AP 3D度量之外，我们还报告了3D定位AP LOC度量的结果，仅供参考。如果其2D自顶向下的视图框具有一个具有地面实况框的IOU大于阈值，则预测的3D框是真正的。我们计算每类精度召回曲线，并使用曲线下面积作为AP度量。我们使用官方评估协议的KITTI数据集，即3D IOU阈值分别为0.7，0.5，0.5的汽车，骑车人，行人。表4示出了仅在汽车上进行训练的模型的结果，除了在所有类别上进行训练的最终（所有类）外，表5示出了对所有类别进行训练的模型的结果。

5.2. The rgbd baseline

在实验部分，我们表明，RGBD基线模型在KITTI数据集上表现最差。我们观察到，大多数预测箱具有小于0.5 IOU与地面实况框由于预测深度的误差。在SUN-RGBD数据集中，由于密集的深度图的可用性，性能差距减小。然而，使用基于美国有线电视新闻网的体系结构来实现这样的性能是不平凡的。在这里，我们详细描述了RGBD基线。

5.2.1Input representation

RGBD基线是以5通道张量作为输入的美国有线电视新闻网体系结构。前三个通道是输入RGB图像。第四个通道是深度通道。对于KITTI，我们通过将激光雷达点云投影到图像平面上获得深度通道，并将零分配给没有深度值的像素。对于Sun-RGBD，我们使用深度图像。我们用最大深度范围值对深度测量进行归一化。第五通道是深度测量二进制掩码：1指示深度通道中的对应像素具有深度值。这是为了增加额外的信息来帮助模型区分没有测量和小测量。凭经验，我们发现这个额外的渠道是有用的。

5.2.2 Learning Objective

我们发现，训练模型来预测三维角点位置是无效的，由于高度非线性映射和缺乏图像接地。因此，我们倒退框角的像素位置和角落的深度，然后使用相机的几何形状来恢复完整的3D框。类似的方法已应用于〔20〕。像素输入目标通过输入二维盒的尺寸在0和1之间归一化。对于深度目标，我们发现，直接回归深度值是困难的，特别是对于KITTI数据集，其中目标对象具有大的位置方差。相反，我们采用了一种多假设方法：我们将深度目标离散成重叠的容器，并训练网络来预测哪一个bin包含目标框的中心。该网络还被训练来预测每个角落的剩余深度到预测深度箱的中心。在测试时间，通过增加预测桶的中心深度和每个角的预测残差深度可以恢复角深度值。直观地，该方法允许网络对深度进行粗到精的估计，减轻深度目标中的大方差。

References
[1] M. Aubry, D. Maturana, A. A. Efros, B. C. Russell, and J. Sivic. Seeing 3d chairs: exemplar part-based 2d-3d alignment using a large dataset of cad models. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3762–3769, 2014. 2
[2] X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fi-dler, and R. Urtasun. 3d object proposals for accurate object
class detection. In Advances in Neural Information Process-ing Systems, pages 424–432, 2015. 6, 7, 11
[3] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3d object detection network for autonomous driving. In IEEE CVPR, 2017. 1, 2, 3, 5, 6, 7, 11

[4] H. Cho, Y.-W. Seo, B. V. Kumar, and R. R. Rajkumar. A multi-sensor fusion system for moving object detection and
tracking in urban driving environments. In Robotics and Automation (ICRA), 2014 IEEE International Conference on,
pages 1836–1843. IEEE, 2014. 1
[5] A. Collet, M. Martinez, and S. S. Srinivasa. The moped framework: Object recognition and pose estimation for ma-
nipulation. The International Journal of Robotics Research,30(10):1284–1306, 2011. 2
[6] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recogni-
tion, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 4
[7] M. Enzweiler and D. M. Gavrila. A multilevel mixture-of-experts framework for pedestrian classification. IEEE Trans-
actions on Image Processing, 20(10):2967–2979, 2011. 1
[8] V. Ferrari, T. Tuytelaars, and L. Van Gool. Simultaneous object recognition and segmentation from single or multi-
ple model views. International Journal of Computer Vision,67(2):159–188, 2006. 2
[9] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In Com-
puter Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3354–3361. IEEE, 2012. 1, 2, 5
[10] M. Giering, V. Venugopalan, and K. Reddy. Multi-modal sensor registration for vehicle perception via deep neural net-
works. In High Performance Extreme Computing Conference (HPEC), 2015 IEEE, pages 1–6. IEEE, 2015. 2
[11] S. Gupta, P. Arbel ́aez, R. Girshick, and J. Malik. Aligning 3d models to rgb-d images of cluttered scenes. In Proceed-
ings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4731–4740, 2015. 2
[12] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE con-
ference on computer vision and pattern recognition, pages770–778, 2016. 2
[13] L. Huang, Y. Yang, Y. Deng, and Y. Yu. Densebox: Unifying landmark localization with end to end object detection. arXiv

preprint arXiv:1509.04874, 2015. 2, 4

[14] S. C. Z. M. K. A. F. A. F. I. W. Z. S. Y. G. S. M. K. Huang J,Rathod V. Speed/accuracy trade-offs for modern convolu-
tional object detectors. In Proceedings of the IEEE international conference on computer vision, 2017. 5

[15] J. Lahoud and B. Ghanem. 2d-driven 3d object detection in rgb-d images. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pages 46224630, 2017. 1, 2, 5, 8
[16] B. Li. 3d fully convolutional network for vehicle detection in point cloud. IROS, 2016. 2
[17] B. Li, T. Zhang, and T. Xia. Vehicle detection from 3d lidar using fully convolutional network. arXiv preprint
arXiv:1608.07916, 2016. 1, 2, 6, 7, 11
[18] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollr. Focal loss for dense object detection. In Proceedings of the IEEE

international conference on computer vision, 2017. 1

[19] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll ́ar, and C. L. Zitnick. Microsoft coco: Com-
mon objects in context. In European conference on computer vision, pages 740–755. Springer, 2014. 5
[20] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka. 3d bounding box estimation using deep learning and geometry.
IEEE CVPR, 2016. 1, 2, 10
[21] T.-Y. L. nad Piotr Dollar, R. Girshick, K. He, B. Hariharan,and S. Belongie. Feature pyramid networks for object detec-
tion. In IEEE CVPR, 2017. 1
[22] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation.
arXiv preprint arXiv:1612.00593, 2016. 2, 3, 4
[23] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. InAdvances in neural information processing systems, pages91–99, 2015. 1, 2, 3, 4, 5
[24] Z. Ren and E. B. Sudderth. Three-dimensional object detection and layout prediction using clouds of oriented gradients.
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1525–1533, 2016. 2, 5, 8
[25] G. Riedler, A. O. Ulusoy, and A. Geiger. Octnet: Learning deep representations at high resolution. In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2017. 2
[26] F. Rothganger, S. Lazebnik, C. Schmid, and J. Ponce. 3d object modeling and recognition using local affine-invariant
image descriptors and multi-view spatial constraints. International Journal of Computer Vision, 66(3):231–259, 2006.
2
[27] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh,S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein,
A. C. Berg, and L. Fei-Fei. ImageNet Large Scale VisualRecognition Challenge. International Journal of Computer
Vision (IJCV), 115(3):211–252, 2015. 5
[28] S. Song, S. P. Lichtenberg, and J. Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of
the IEEE conference on computer vision and pattern recognition, pages 567–576, 2015. 1, 2, 5
[29] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In European conference on computer vision,pages 634–651. Springer, 2014. 2
[30] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition,pages 808–816, 2016. 1, 2, 5, 8

[31] S. Tulsiani and J. Malik. Viewpoints and keypoints. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 1510–1519, 2015. 2
[32] J. Uhrig, N. Schneider, L. Schneider, U. Franke, T. Brox,and A. Geiger. Sparsity invariant cnns. arXiv preprint
arXiv:1708.06500, 2017. 2
[33] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Data-driven 3dvoxel patterns for object category recognition. In Proceed-
ings of the IEEE Conference on Computer Vision and PatternRecognition, pages 1903–1911, 2015. 2
[34] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Subcategory-aware convolutional neural networks for object proposals
and detection. In Applications of Computer Vision (WACV),2017 IEEE Winter Conference on, pages 924–933. IEEE,2017. 1, 2
[35] M. Zhu, K. G. Derpanis, Y. Yang, S. Brahmbhatt, M. Zhang,C. Phillips, M. Lecce, and K. Daniilidis. Single image 3d ob-
ject detection and pose estimation for grasping. In Robotics and Automation (ICRA), 2014 IEEE International Confer-
ence on, pages 3936–3943. IEEE, 2014. 2