転載:リアルタイム3次元物体検出オイラー地域プログラム上の点群----コンプレックス - YOLO

機械翻訳は、多くの場所は、流暢ではありません間に合わせると見、感じです





オリジナル名:コンプレックス- YOLO:リアルタイム3Dオブジェクト検出ONポイント雲のためのオイラー-地域-提案
オリジナル住所http://www.sohu.com/a/285118205_715754
コードの位置https://github.com/ Mandylove1993 /複合ヨロ(価値、それを再現)

概要それが直接ので、予測と運動計画のための基礎を築く、環境の理解に関連しているため、3次元レーザレーダターゲットの検出に基づいて、不可避な選択を自動操縦です。(例えば、拡張現実、パーソナルロボットや産業オートメーションなどの)自動車両に加えて、多くの他の用途のためにリアルタイム3Dスパース・データの高さを推測する能力は、不快の問題です。私たちは、複雑なヨロ、点群で唯一のリアルタイム3Dオブジェクト検出ネットワークをご紹介します。本研究では、我々はネットワークを記述する、それが特定の複雑な回帰法、RGB標準目標検出yolov2用2次元画像の急速な拡大を介して多クラス3Dボックスデカルト空間推定されます。したがって、我々は、オイラーの特定領域は、仮想画分および回帰ネットワークで固形分を添加することにより物体の姿勢を推定するために、ネットワーク(E-RPN)を推奨提案します。これは、閉空間の複雑で終了し、発生した単一角度から推定された特異点を回避します。E-RPNトレーニング中の良好な概観をサポートしています。キティベンチマークスイートの我々の実験では、効率の面で、我々は現在の主要な3次元物体検出方法よりも優れていることを示しています。私たち速い最速の競合他社よりも5倍以上は、自動車、歩行者や自転車の中で最も先進的な成果を得ることができます。また、我々のモデルは、バン、トラックや座って歩行者を含むすべての8つの小型トラック、一方で高精度に推定することができます。

キーワード:三次元物体の検出、ポイントクラウド処理、レーザレーダ、自律走行

1 はじめに

近年では、より多くの重要な自己駆動車用の自動レーザレーダセンサ、点群処理の改善で。センサーのサプライヤーは、周囲の環境のリアルタイム3次元のポイントを提供することができます。利点は、囲まれたオブジェクト距離[1]の直接の尺度です。これは、私たちは、検出アルゴリズムは、自動運転用に開発された3次元位置と異なるターゲットの方位を正確に推定することができる標的化を可能にする[2] [3] [4] [5] [6] [7] [8] [9]です。画像、全測定領域に渡ってレーザ点群レーダーまばらな密度分布と比較しました。これらの点は、局所的に相互作用する、無秩序であり、主は、分析のために単離することができません。ポイントクラウド処理は常に基本的な変換[10]〜[11]のために同じままであるべきです。

深い学習に基づく一般的なオブジェクト検出および分類は、画像[12] [13] [14] [15] [16] [17] [18] [19]のための2Dバウンディングボックスを返すタスクの広い範囲に知られており、オンラインで確立されています[20] [21]。研究の主な焦点は、精度と効率の間のトレードオフです。自動運転の効率下では、はるかに重要です。好ましくは、LAN(RPN)を使用し、従って物体検出、[3] [22] [15]または類似のグリッドベースの方法RPN - [13]。これらのネットワークは非常に正確かつ効率的に、専用の組み込みハードウェアまたは機器上で動作しているのでも可能です。点群の検出オブジェクトはめったにまだオンラインとブラックベリーブラックベリーではありませんが、重要。これらのアプリケーションは、3D境界ボックスであることができる必要性を予測することができます。現在、主に深さを使用する三つの異なる学習方法が存在する:[3]
1。多層パーセプトロン処理ポイントクラウド層の直接使用[5] [10] [11] [23] [24]
2。スタックモードに畳み込みニューラルネットワーク(CNN)を用いて画像ピクセル又はポイントクラウドの変換[2] [3] [4] [6] [8] [9] [25] [26]
3。関節融合法[2] [7]

1.1関連研究

最近、ネットワークベースの円錐台[5]キティベンチマークスイートに良好な性能を示しています。第2のモデルは、それらのベースの車両、歩行者や自転車の検出空中ビューとして、三次元物体の検出のために、記載されています。これは、CNNでライダーを使用せずに、ポイントクラウドを処理するネットワークに直接ポイントする唯一の方法、[10]であり、本体要素を作成します。しかし、それは前処理が必要で、それはまた、カメラセンサーを使用する必要があります。ポイントクラウドを復元円錐台に基づいて大域的最小点群にこれらの検出を使用してキャリブレーションに基づいて、別のCNNカメラ画像処理。この方法は、2つの欠点を持っていた:i)。モデルの精度は、カメラ画像とその関連CNNに大きく依存します。したがって、この方法の唯一のレーザレーダデータアプリケーションが可能である; II)。全体のパイプは、高効率と低推論時間で、その結果、連続する2つの深い学習方法を実行する必要があります。7fps程度のフレームレートで動作するのNvidia GTX 1080iのGPUにおける参照モデル[1]。

対照的に、周ら[3]のみレーザレーダデータ上で実行されているモデルを提案しました。この点で、唯一の3D視力検査や鳥ライダーデータを使用するためにキティ最高ランクのモデルです。基本的な考え方は、手作りの特性を使用せずに、グリッド単位で実行される、端から端まで学ぶことです。メッシュポイントにおけるトレーニング方法、グリッドセル内の学習機能[10]中。最も重要なことは、CNNが3Dバウンディングボックスを予測する確立することです。高精度にもかかわらず、しかし、モデル推定時間は4fpsのためTitanxGPU上の非常に短いです[3]。

Chenら別の高位の方法を報告しました。[5]。基本的な考え方は、ドット密度、代表点の最大高さとのボクセルに基づいて地図上に投影レーザレーダRGBポイントクラウドの強度として手作りの機能を使用することである[9]。高度に正確な結果を得るために、彼らは、レーザーベースのレーダー航空図、レーザベースのレーダとカメラベースのマルチビュー正面画像法の正面図を用います。最終的に統合処理時間につながったこれが唯一のNvidia GTXの1080iのGPU上で4fps、非常に長いです。別の欠点は、補助入力センサ(カメラ)のために必要です。

1.2貢献

驚いたことに、これまでのところ、自動操縦の観点からリアルタイム効率を達成することができませんでした。したがって、我々は、NVIDIA GPU Titanxに50fpsのよりも高速に実行することができ、最初の超薄型かつ正確なモデルを導入しました。我々は、前処理および特徴抽出点群のために[5]多視点思想(MV3D)を使用します。しかし、我々は、効率を確保するために、RGBレーザベースのレーダ(図1参照)の単一の空中ビューを生成する、マルチビューの統合を無視します。

加えて、我々は、最も先進的な画像オブジェクト検出器[13]のいずれかYolov2の複合ヨロ、3D放出を導入しました。ヨロは、当社の特定の電子RPNのサポート、各ブロックエンコードされたオブジェクトの虚と実部で示される電子RPN推定方向によって複雑。アイデアはありません数学的特異点、正確な角度の一般化で閉鎖空間を作成することです。我々のモデルは、オブジェクトがいくつかの点(例えば、歩行者)に基づいていても、オブジェクトの正確な位置決めおよび配向を含む、正確な三次元のリアルタイムのフレームを予測することができます。

したがって、我々は、特別なアンカーボックスを設計しました。また、すべての8つのクラスのキティレーザレーダにのみ入力データを用いて予測することができます。私たちは、キティのベンチマークスイートに我々のモデルを評価しました。精度の面では、我々は、効率の点で、私たちのパフォーマンスは、少なくとも5倍の電流リーダーを超え、車、歩行者や自転車でも同じ結果が得られます。本論文の主な貢献は次のとおりです。

1。本論文では卵黄信頼性の高い3次元ボックスの回帰推定角度の新しい方法E-RPN複合体。

2。私たちは、現在の主要なモデルよりも5倍速い持つリアルタイムのスピードとキティのベンチマークスイートで評価の高精度な性能を提供します。

3。我々は、E-RPNカセット支持することにより、各3次元方向の精度を推定し、モデルは、物体の周りの軌道を予測することができます。

4。他のレーザレーダに基づく方法(例えば、[3])することができる効果的に往路推定上のすべてのクラスを同時に我々のモデルと比較して。

2コンプレックス - YOLO

このセクションでは、リアルタイム性能の設計の効率性を確保するために、特定のネットワーク構造、訓練のための機能および間接的損害に基づいて格子点の雲の前処理を説明します。

2.1前処理ポイントクラウド

ベロダインHDL64は、レーザスキャナによって[1]取得した3次元点群の単一のフレームを原点センサ80メートル×40 M(図4参照)の前方の領域をカバーする単一のRGB鳥瞰図に変換されます。チェンらに触発さ。(Mv3d)が[5]高さ、強さおよび密度に基づいてRGBマップを符号化します。図のメッシュサイズは、n = 1024、M = 512と定義されます。したがって、我々は、約G = 8センチメートルの解像度に投影分散点群を3Dであろう二次元グリッドです。MV3Dと比べて、我々は、わずかに高い入力解像度を有しながら、より小さな量子化誤差を達成するために、セルサイズを減少させました。効率と性能の理由から、私たちは一つだけではなく、複数の高さマップを使用しています。したがって、すべての3つのチャネルが、前記(ZR、ZG、ZRとZB、; G; B 2 Rmを×N)は、カバレッジについて計算領域Ω曇り点P 2 R3の範囲内です。私たちは、PΩの原点とし、定義ベロダインます。

1.73メートル[1]、我々はライダーZ 2 Z位置を考慮[-2M; 1:25メートル]を取ることを選択した約3メートルの高の領域をカバーする地上、トラックは、最高の目標となることが期待されます。特定のグリッドセルSJ RGBの我々のマッピングインデックスiを有するN個のマッピング×S 2 RMと、各点を、(GpΩi)によって較正[1]、我々は、マッピング関数SJ = FPSを定義します。特定のグリッドセルにマッピングされ記載された全ての点の集合。


したがって、我々は考慮強度I(pΩ)の速度を取って、各ピクセルのチャンネルを計算することができます。


ここで、nはSjに点pΩiからマッピングを記述する、Gはグリッドセルのパラメータの大きさです。したがって、ZGはZBが最大強度をコードする、最大高さをコードする、ZR符号化は、すべてのドットSJの正規化された濃度(図2参照)にマッピングされます。

2.2構造

図RGBへ空中ヨロ複雑なネットワークは、入力として(セクション2.1を参照します)。これは、多重角度回帰によって単純化Yolov2 [13] CNNアーキテクチャ(表1を参照)を使用し、E-RPNは、リアルタイム動作の多くのタイプの場合には正確に配向検出された3次元物体を拡張しました。

オイラーエリア提案私達の電子RPN分解三次元位置BX、Y、オブジェクトのサイズ(幅と長さBLのBW)と確率P0、クラススコアP1 ::: PNは、最終的に、図の特性からBφ方向入力を分析しました。正しい方向を得るために、我々は、複雑な角度のarg(jzjeibφ)を追加し、通常のグリッドRPN方法を変更しました。


借助这一扩展,E-RPN可以根据直接嵌入网络中的虚分数和实分数来估计精确的对象方向。对于每个网格单元(32x16,请参见选项卡。1)我们预测了五个对象,包括概率分数和类分数,每个对象产生75个特征,如图2所示。

锚箱设计。 Yolov2物体探测器[13]预测每个网格单元有五个盒子。所有这些都是用有益的先验,即锚箱初始化的,以便在训练期间更好地融合。由于角度回归,自由度,即可能的先验次数增加了,但由于效率原因,我们没有扩大预测次数。
因此,我们根据Kitti数据集内的方框分布,仅预先定义了三种不同的尺寸和两个角度方向:i)车辆尺寸(朝上);i i)车辆尺寸(朝下);i i i)自行车尺寸(朝上);i v)自行车尺寸(朝下);v)行人尺寸(朝左)。

复角回归。每个物体的方向角bφ可以通过相应的回归参数tim和tre计算得出,它们对应于复数的相位,类似于[27]。角度只需使用arctan2(tim;tre)。一方面,这避免了奇异性,另一方面,这导致了一个封闭的数学空间,从而对模型的推广产生了有利的影响。
我们可以将回归参数直接链接到损失函数(7)中。

2.3损失函数

我们的网络优化损失函数L基于Yolo[12]和Yolov2[13]的概念,他们使用引入的多部分损失将Lyolo定义为平方误差之和。我们将此方法推广到欧拉回归部分Leuler,以利用复数,复数具有封闭的数学空间用于角度比较。这忽略了单角度估计中常见的奇点:

损失函数的欧拉回归部分借助欧拉区域建议进行定义(见图3)。假设预测复数与地面真值(即jz j e i bφ和jz^j e i^bφ)之间的差总是位于单位圆上,jz j=1,jz^j=1,我们将平方误差的绝对值最小化,得到实际损失:

其中,λcoord是确保早期阶段稳定收敛的比例因子,1obj ij表示,与该预测的地面真值相比,单元i中的jth边界框预测器在联合(iou)上具有最高的交叉点。此外,还比较了预测框PJ和地面真值G与,其中也调整处理旋转框。这是通过两个二维多边形几何图形的交集和并集理论实现的,分别由相应的框参数bx、by、bw、bl和bφ生成。

2.4效率设计

所用网络设计的主要优点是预测一个推理过程中的所有边界框。e-rpn是网络的一部分,使用最后一个卷积层的输出来预测所有边界框。因此,我们只有一个网络,可以在没有特定培训方法的情况下以端到端的方式进行培训。因此,我们的模型比其他以滑动窗口方式生成区域建议的模型运行时间更低[22],预测每个建议的偏移量和类别(例如,更快的R-CNN[15])。在图5中,我们将我们的架构与Kitti基准上的一些主要模型进行了比较。我们的方法实现了一个更高的帧速率,同时仍然保持可比的地图(平均精度)。这些帧速率是直接从各自的论文中获得的,并且都在TitanX或TitanXP上进行了测试。我们在Titan X和Nvidia TX2板上测试了我们的模型,以强调实时功能(见图5)。

3培训与实验

我们在具有挑战性的Kitti物体检测基准[1]上评估了复杂的Yolo,该基准分为三个子类别:汽车、行人和自行车的二维、三维和鸟瞰物体检测。每个类的评估基于三个难度级别:容易、中等和难考虑对象大小、距离、遮挡和截断。这一公共数据集提供了7481个训练样本,包括注释地面实况和7518个测试样本,这些样本的点云取自一台Velodyne激光扫描仪,其中注释数据是私有的。请注意,我们关注的是鸟瞰图,并没有运行二维物体检测基准,因为我们的输入仅基于激光雷达。

3.1培训详情

我们从零开始通过随机梯度下降训练我们的模型,重量衰减为0.0005,动量为0.9。我们的实现基于修改版的Darknet神经网络框架[28]。首先,我们应用了我们的预处理(见第2.1节),从Velodyne样本中生成鸟瞰RGB图。根据[2][3][29]中的原则,我们对训练集进行了细分,使其具有公共可用的地面真实性,但使用85%的比率进行训练,15%的比率进行验证,因为我们从零开始训练,旨在建立一个能够进行多类预测的模型。相比之下,例如,体素网[3]对不同类别的模型进行了修改和优化。我们遭受了可用的地面真实数据,因为它是为了摄像机检测第一。75%以上的汽车、4%以下的自行车和15%以下的行人的阶级分布是不利的。此外,超过90%的注释对象都面向汽车方向、面向录音车或具有类似方向。在顶部,图4显示了从鸟瞰图角度看的空间物体位置的二维柱状图,其中密集点表示在这个位置的更多物体。它继承了鸟类视野图的两个盲点。然而,我们看到了验证集和其他记录的未标记Kitti序列的令人惊讶的好结果,这些序列涵盖了几个用例场景,如城市、公路或市中心。

在第一个阶段,我们从一个小的学习速度开始,以确保收敛。经过一段时期后,我们提高了学习率,并继续逐渐降低,达到1000个时期。由于细粒度要求,当使用鸟瞰方法时,预测特征的微小变化将对结果框预测产生强烈影响。除了漏校正线性激活外,我们对CNN的最后一层使用了批处理规范化和线性激活f(x)=x:

3.2kitti评价

我们已经调整了我们的实验设置,并遵循了官方的Kitti评估协议,其中IOU阈值为0.7级汽车,0.5级行人和骑自行车者。对图像平面上不可见的检测进行过滤,因为地面真值仅适用于也出现在摄像机记录图像平面[1]上的对象(见图4)。我们使用平均精度(AP)度量来比较结果。请注意,我们忽略了少数在鸟瞰图边界外的物体,这些物体的正面距离超过40米,以保持输入尺寸尽可能小,以提高效率。

鸟瞰图。我们对鸟瞰图检测的评估结果显示在表中。2。此基准使用边界框重叠进行比较。为了更好地概述和对结果进行排序,也列出了类似的当前主要方法,但在正式的Kitti测试集上执行。在运行时间和效率方面,复杂的Yolo始终优于所有竞争对手,但仍能达到相当的准确性。在TitanxGPU上运行大约0.02s,考虑到它们使用了更强大的GPU(Titanxp),我们比Avod[7]快5倍。与仅基于激光雷达的体素网[3]相比,我们的速度要快10倍多,而最慢的竞争对手MV3D[2]的速度要长18倍。

三维物体检测。Tab。3显示了我们对三维边界框重叠的实现结果。由于我们没有直接用回归估计高度信息,因此我们使用从地面实况中提取的固定空间高度位置来运行该基准,类似于MV3D[2]。此外,如前所述,我们只需根据每个对象的类为其注入一个预定义的高度,该高度是根据每个类的所有地面真值对象的平均值计算得出的。这降低了所有类的精度,但它证实了在鸟瞰基准上测量的良好结果。

4结论

本文提出了第一个基于激光雷达点云的三维目标检测实时高效深度学习模型。我们在Kitti Benchmark套件上以精确度(见图5)突出显示了我们的最新成果,其卓越的效率超过50 fps(Nvidia Titan X)。我们不需要额外的传感器,例如摄像头,就像大多数主要的方法一样。这一突破是通过引入新的E-RPN实现的,E-RPN是一种借助复数估计方向的欧拉回归方法。没有奇点的封闭数学空间允许稳健的角度预测。

我们的方法能够在一条前方道路上同时检测多个等级的物体(例如汽车、货车、行人、骑自行车的人、卡车、有轨电车、坐着的行人、其他)。这一新颖性使部署真正用于自驾汽车,并明显区别于其他车型。我们甚至在专用嵌入式平台Nvidia TX2(4 fps)上显示了实时功能。在未来的工作中,计划将高度信息添加到回归中,从而在空间中实现真正独立的三维对象检测,并在点云预处理中使用时间-空间相关性,以更好地区分类和提高精度。

Acknowledgement

首先,我们要感谢我们的主要雇主Valeo,特别是J?org Schrepfer和Johannes Petzold,他们给了我们做基础研究的可能性。此外,我们还要感谢我们的同事马克西米利安·贾里茨对体素一代的重要贡献。最后,我们要感谢我们的学术伙伴图伊曼努,他与我们有着卓有成效的合作关系。

References

1. Geiger, A.: Are we ready for autonomous driving? the kitti vision benchmark suite. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). CVPR ’12, Washington, DC, USA, IEEE Computer Society (2012) 3354{3361
2. Chen, X., Ma, H., Wan, J., Li, B., Xia, T.: Multi-view 3d object detection network for autonomous driving. CoRR abs/1611.07759 (2016)
3. Zhou, Y., Tuzel, O.: Voxelnet: End-to-end learning for point cloud based 3d object detection. CoRR abs/1711.06396 (2017)
4. Engelcke, M., Rao, D., Wang, D.Z., Tong, C.H., Posner, I.: Vote3deep: Fast object detection in 3d point clouds using efficient convolutional neural networks. CoRR abs/1609.06666 (2016)
5. Qi, C.R., Liu, W., Wu, C., Su, H., Guibas, L.J.: Frustum pointnets for 3d object detection from RGB-D data. CoRR abs/1711.08488 (2017)
6. Wang, D.Z., Posner, I.: Voting for voting in online point cloud object detection. In: Proceedings of Robotics: Science and Systems, Rome, Italy (July 2015)
7. Ku, J., Mozifian, M., Lee, J., Harakeh, A., Waslander, S.: Joint 3d proposal generation and object detection from view aggregation. arXiv preprint arXiv:1712.02294 (2017)
8. Li, B., Zhang, T., Xia, T.: Vehicle detection from 3d lidar using fully convolutional network. CoRR abs/1608.07916 (2016)
9. Li, B.: 3d fully convolutional network for vehicle detection in point cloud. CoRR  abs/1611.08069 (2016)
10. Qi, C.R., Su, H., Mo, K., Guibas, L.J.: Pointnet: Deep learning on point sets for 3d classification and segmentation. CoRR abs/1612.00593 (2016)
11. Qi, C.R., Yi, L., Su, H., Guibas, L.J.: Pointnet++: Deep hierarchical feature learning on point sets in a metric space. CoRR abs/1706.02413 (2017)
12. Redmon, J., Divvala, S.K., Girshick, R.B., Farhadi, A.: You only look once: Unified, real-time object detection. CoRR abs/1506.02640 (2015)
13. Redmon, J., Farhadi, A.: YOLO9000: better, faster, stronger. CoRR abs/1612.08242 (2016)
14. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S.E., Fu, C., Berg, A.C.: SSD: single shot multibox detector. CoRR abs/1512.02325 (2015)
15. Ren, S., He, K., Girshick, R.B., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. CoRR abs/1506.01497 (2015)
16. Cai, Z., Fan, Q., Feris, R.S., Vasconcelos, N.: A unified multi-scale deep convolutional neural network for fast object detection. CoRR abs/1607.07155 (2016)
17. Ren, J.S.J., Chen, X., Liu, J., Sun, W., Pang, J., Yan, Q., Tai, Y., Xu, L.: Accurate single stage detector using recurrent rolling convolution. CoRR abs/1704.05776 (2017)
18. Chen, X., Kundu, K., Zhang, Z., Ma, H., Fidler, S., Urtasun, R.: Monocular 3d object detection for autonomous driving. In: IEEE CVPR. (2016)
19. Girshick, R.B., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. CoRR abs/1311.2524 (2013)
20. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. CoRR abs/1512.03385 (2015)
21. Chen, X., Kundu, K., Zhu, Y., Ma, H., Fidler, S., Urtasun, R.: 3d object proposals using stereo imagery for accurate object class detection. CoRR abs/1608.07711 (2016)
22. Girshick, R.B.: Fast R-CNN. CoRR abs/1504.08083 (2015)
23. Li, Y., Bu, R., Sun, M., Chen, B.: Pointcnn (2018)
24. Wang, Y., Sun, Y., Liu, Z., Sarma, S.E., Bronstein, M.M., Solomon, J.M.: Dynamic graph cnn for learning on point clouds (2018)
25. Xiang, Y., Choi, W., Lin, Y., Savarese, S.: Data-driven 3d voxel patterns for object category recognition. In: Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. (2015)
26. Wu, Z., Song, S., Khosla, A., Tang, X., Xiao, J.: 3d shapenets for 2.5d object recognition and next-best-view prediction. CoRR abs/1406.5670 (2014)
27. Beyer, L., Hermans, A., Leibe, B.: Biternion nets: Continuous head pose regression from discrete training labels. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
9358 (2015) 157{168
28. Redmon, J.: Darknet: Open source neural networks in c. http://pjreddie.com/ darknet/ (2013{2016)
29. Chen, X., Kundu, K., Zhu, Y., Berneshawi, A., Ma, H., Fidler, S., Urtasun, R.: 3d object proposals for accurate object class detection. In: NIPS. (2015)

                </div>

转自https://blog.csdn.net/weixin_36662031/article/details/86237800

おすすめ

転載: www.cnblogs.com/sdu20112013/p/11549618.html