論文の読書: SLAM と LiDAR と単眼視覚の融合に基づく 3D セマンティック再構築

論文: LIDAR と単眼視覚の融合に基づく SLAM と 3D セマンティック再構築

出典: センサー

链接:dblp: LIDAR と単眼視覚の融合に基づく SLAM と 3D セマンティック再構築。

0. 概要

        単眼カメラと LIDAR は、自動運転車で最も一般的に使用される 2 つのセンサーです。両方の利点を組み合わせることが、SLAM とセマンティック分析の現在の研究の焦点です。この論文では、LIDAR と単眼視覚の融合に基づいた、改良された SLAM と意味論的再構成方法を提案します。セマンティック画像を低解像度の 3D LIDAR 点群と融合して、高密度のセマンティック深度マップを生成します。視覚的なオドメトリを通じて深度情報を含む ORB 特徴点を選択し、位置精度を向上させます。私たちの方法では、自動運転車の位置を特定しながら、並列スレッドを使用して 3D セマンティック点群を集約します。実験は公共の都市景観と KITTI Visual Odometry データセットで実行され、その結果は次のことを示しています: ORB-SLAM2 および DynaSLAM と比較して、位置推定誤差が約 87% 減少し、DEMO および DVL-SLAM と比較して、位置推定精度が向上しました。ほとんどのシーケンスで。当社の 3D 再構成は DynSLAM よりも高品質であり、セマンティック情報が含まれています。この方法は、無人車両の分野において工学的に応用価値があります。

1 はじめに

        SLAM (同時位置推定とマッピング) テクノロジーは、主にカメラ、LiDAR、IMU、GPS、その他のセンサーを使用して、未知の環境で移動ロボットの位置を特定し、同時に地図の位置を特定します。SLAM は、さまざまな外部センサーに応じて、ビジュアル SLAM とライダー SLAM に分類できます。

        視覚的 SLAM では、通常、豊富な視覚情報を取得するためにカメラが使用されます。これは、物体の検出、認識、環境の意味理解において大きな利点と可能性をもたらします。ただし、カメラで撮影した画質は光に大きく影響されるため、照明が不十分なシーンでは視覚的 SLAM の位置特定精度が低くなります。一方、LIDAR によって収集されたターゲット情報は、正確な角度と距離の情報を備えた一連の点群として表現されます。LIDAR スキャンには深度情報が含まれているため、LIDAR ベースの SLAM は、移動ロボットが経路計画やナビゲーションなどのタスクを実行するのに役立ちます。構造化されていない LIDAR ポイントはシーン テクスチャを表すことができません。長い廊下などの低テクスチャ環境では LIDAR SLAM [2] に問題が発生します。これらは相補的であるように見えるため、それらを融合することでそれぞれの主要な弱点のバランスをとることができます。ビジョン センサーと LIDAR センサーの両方を使用すると、局所的な不確実性と累積ドリフトを軽減できます [3]。

       3D 再構成プロセスでは、データからセマンティクスと属性を抽出する作業負荷が最も大きくなります。屋外の運転環境の急激な変化を考慮すると、手動でアノテーションを付けたセマンティックマップでは車両環境認識動作が不十分となり、危険な状況が生じる可能性があります。自動化された 3D セマンティック再構築により、人件費が削減され、運転の安全性が向上します。再構成されたマップの位置特定の精度と品質を向上させるには、セマンティック画像と LIDAR の融合を考慮する必要があります。

        この論文では、屋外環境で単眼画像と LIDAR 点群を便利かつ効率的に融合する、LIDAR と単眼視覚の融合に基づく SLAM および 3D セマンティック再構成方法を提案します。画像の特徴と正確な深度情報を組み合わせて、自動運転車の堅牢かつ高精度の位置特定を実現し、セマンティック画像と LIDAR 点群を組み合わせて、便利で直感的な方法で大規模な屋外シーンの高品質 3D マップを再構築します。これらの貢献は次のとおりです。

        (1) 低密度 LIDAR 点群と意味的に分割された画像を融合し、意味画像に対応する点群を意味的に処理する射影補間法を提案する。

        (2) LIDAR と単眼視覚の融合に基づく SLAM 手法を提案します。この手法は、アップサンプリング点群を使用して画像特徴点の深さ情報を提供し、位置精度を向上させます。

        (3)マッピングのスパース性問題を目的として、融合データを使用して、局所化しながら屋外環境の密な意味マップを再構成する3D密再構成法を提案する。

2.関連作品

2.1. シングルセンサー SLAM シングルセンサー SLAM

        Visual SLAM は主にカメラを外部センサーとして使用し、テクスチャ、色、形状などの豊富な環境情報を取得します。ORB-SLAM [5] は、ORB 特徴点に基づく単眼視覚 SLAM です。システム全体には、追跡、部分マッピング、およびループ閉鎖検出の 3 つの並列スレッドが含まれています。まばらな点群のリアルタイム再構成は、エピポーラ制約、三角測量、非線形最適化、およびバッグオブワードベースの手法を通じて実現されます。ORB-SLAM2 [6] は、ステレオ カメラと RGB-D カメラを使用してステレオ マッチングと最適化アルゴリズムを追加し、リアルタイムの位置特定とスパースの再構成を実現します。Bescos らは、マスク R-CNN[8] とマルチビュー ジオメトリを組み合わせて動的オブジェクトを除去し、動的オブジェクトによって遮蔽された背景を修復する DynaSLAM[7] アルゴリズムを提案しました。このアルゴリズムの位置精度が高いことを示しています。ただし、この方法はネットワーク層が多いためリアルタイムではありません。Cui らは SDF-SLAM を提案しました [10]。彼らは、SLAM アルゴリズムが動的環境でより正確に位置特定できるようにするセマンティック深度フィルターを開発しました。彼らは屋内シナリオでのシミュレーションに TUM データセットを使用するため、より困難な屋外シナリオでのアルゴリズムのパフォーマンスを表現することはできません。

        視覚的な SLAM と比較して、LIDAR ベースの SLAM は環境の色や質感を認識できませんが、強力な対光干渉能力を備えており、深度情報を使用して位置精度を向上させることができます。Shan ら [11] が提案した LeGo-LOAM は、LIDAR 点群を分割し、無人運転車の運転により発生するノイズを除去した後、点群内の平面とエッジの特徴を抽出して測位誤差を低減します。組み込みシステムは自動運転車の位置を特定し、まばらな地図を構築します。地上の点群が少ない場合、アルゴリズムは簡単に故障する可能性があります。Plane-LOAM は 'Cwian et al.[12] によって提案され、LIDAR 点群から平面と線分を抽出してマップを構築し、ファクター グラフを使用して無人車両の軌道と疎なマップを最適化します。上記の方法はすべて、正確な LIDAR 点群のイメージングに適していますが、点群がまばらであるため、イメージングの可視性は低くなります。

2.2. マルチセンサーフュージョンSLAM

        マルチセンサー融合に基づく SLAM は、単一センサーの性能制限を効果的に克服できます。Qin らによって提案された VINS-Mono [13] システムは、単眼カメラと IMU を組み合わせて、密結合した視覚慣性オドメトリ システムを設計します。この方法によって提案された IMU 事前統合アルゴリズムは、位置精度に対する照明の変化やテクスチャ損失などの要因の悪影響を効果的に軽減し、スパース マップの構築に役立ちます。ORB-SLAM3[14] は、IMU の初期化プロセスに最大事後確率推定を採用し、さまざまなシーンでの安定した動作を実現します。シーンの再識別に基づくマルチマップ システムにより、アルゴリズムがトンネルやトンネルなどの低テクスチャ環境でも動作することが可能になります。屋内で。これは堅牢な操作ですが、計算コストが高くなります。Ku et al. [15] によって設計された方法では、RGB 画像を使用して LIDAR スキャンを完了するため、LIDAR スキャナの不十分なスキャン角度をある程度補うことができます。Graeter ら [16] によって提案された LIMO は、点群とフレームの投影を通じて LiDAR を画像データと関連付け、視覚的特徴の深度推定を取得します。疎な LIDAR 点群は補完的な役割しか果たさないため、LIMO は疎なマップしか構築できません。

        視覚的な特徴は、深度マップや LiDAR 点群と完全に一致できないことがよくあります。De Silva らによって発表された研究 [17] では、ガウス過程回帰を使用して、ビジョン センサーと LIDAR センサー間の幾何学的変換を計算した後、欠損値を補間しています。したがって、LIDAR は、画像内で直接検出された特徴を初期化するために使用されます。ただし、この方法はセンサー フュージョンのためのスペースが限られており、リアルタイム データセットの実験では正確に行うことができず、他の方法と比較して理想的ではありません。Zhang らが提案したビジュアルオドメトリ DEMO [18] は、単眼視と奥行き情報を組み合わせ、特徴点を奥行き情報によって一致する特徴点、三角測量によって得られる奥行きのある特徴点、奥行き情報のない特徴点に分類する。次に、姿勢推定のために結合されます。実験は KITTI Visual Odometry データセットで行われ、その結果、この方法の位置決め精度は一部の定位固定方法よりもさらに高いことが示されましたが、DEMO は特定の角度の特徴に対してより敏感です。Shin et al. によって提案された DVL-SLAM [19] は、特徴の代わりに深度情報を持つピクセルを使用して、マルチライン レーザーと単眼画像を融合する直接法に基づいています。このアルゴリズムは、スライディング ウィンドウの最適化を通じて LIDAR ポイントと画像間のマッチング エラーを削減します。実験結果は、このアルゴリズムが高い位置精度を持ち、3D 再構成を実行できることを示しています。特徴ベースの方法と比較して、DVL-SLAM は計算量が多く、勾配の変化の影響を受けやすくなります。

2.3. セマンティック SLAM

        セマンティック SLAM を深層学習と組み合わせると、シーン内のオブジェクトのセマンティクスを活用して動的環境でのパフォーマンスを向上させることができ、認識や障害物回避などのより複雑なタスクが容易になります [2]。Fusion++ [20] は深度マップをマスク R-CNN および TSDF (切り捨てられた符号付き距離関数) と組み合わせて利用し、屋内オブジェクトの 3D 再構築を実現します。ただし、このアルゴリズムは屋内の静的環境にのみ適しています。MaskFusion [21] は、Mask R-CNN を利用してインスタンスをセグメント化し、画像深度および表面法線キューに基づいてより正確なマスクを提供し、動的環境でのリアルタイム追跡を可能にし、再構築し、セマンティックラベルを割り当てるジオメトリベースのセグメンテーションアルゴリズムを提案しています。復元された地図。Bârsan らによって提案された DynSLAM [22] は、畳み込みニューラル ネットワーク MNC を使用して画像の背景と移動オブジェクトを検出および分類することで、動的オブジェクトの干渉をある程度低減し、KITTI データセットの 3D 再構成を完了します。ただし、センサーのパフォーマンスと GPU メモリによって大幅に制限されます。

        LiDAR 点群は構造化されておらず、無秩序で不規則な性質があるため、それらを畳み込み、セマンティック マップを再構築することは非常に困難です。Milioto et al. [23] によって提案された RangeNet++ は、点群の 2D 球面投影に対してセマンティック セグメンテーションを実行し、次に kNN 検索アルゴリズムを使用してセグメンテーション結果を後処理し、最後にセグメンテーション結果を 3D 点群に再投影します。後処理アルゴリズムは離散性による誤分類を軽減できますが、アルゴリズムの計算量も増加します。Chen らによって提案された SuMa++ [24] は、RangeNet++ を使用して LIDAR ポイントを意味的にセグメント化し、フラッドフィリングアルゴリズムを使用して意味上の誤分類を削減します。このアルゴリズムは、点群のセマンティック情報を組み合わせて動的ターゲットをフィルタリングし、ICP (Iterative Closest Point) アルゴリズムに制約を追加して測位精度を向上させ、サーフェルベースの 3D 3 次元セマンティック マップを確立します。ただし、この方法は複雑で計算コストが高くなります。

        要約すると、データ レベルで、明るさの変化、移動する物体からの干渉、環境内のテクスチャの欠如が特徴マッチングの精度に影響を及ぼし、その結果、測位精度の低下や測位の失敗につながる可能性があります。タスクレベルでは、正確な深度情報が欠如しているため、単眼視のみを使用して高密度の 3D マップを再構成することは困難です。深層学習に基づくセマンティック SLAM アルゴリズムは、LIDAR 点群またはその球面投影を使用して 3D セマンティック再構築を実現できます。ただし、不規則な LIDAR 点群により、深層学習の計算量が膨大になり、複雑さが増し、球面投影ではシーン内の構造情報が不足します。

        上記の問題に応えて、我々は、LIDAR と単眼視覚の融合に基づく SLAM と 3D 意味論的再構成手法を提案します。3 番目のセクションでは、アルゴリズムの全体的なフレームワークを示し、まばらな点群のアップサンプリング方法を提案し、アップサンプリングの結果を使用して位置特定精度を最適化します。セマンティック セグメンテーション ネットワークを使用して 2D 画像をセグメント化し、アップサンプリングされた LIDAR 点群に対応させてセマンティック情報を提供します。次に、融合データを使用して 3D 再構成を達成するためにマッピング方法が導入されます。セクション IV では、KITTI ビジュアル オドメトリ データセットに関するアルゴリズムの精度を評価し、他の V-SLAM および融合ベースの SLAM 手法と比較します。最後に、セクション V で結論が導き出されます。

3. 方法

図 1 は、次のステップを含む、私たちの方法の全体的なフレームワークを表しています。(1) セマンティックセグメンテーション。Bisenetv2 によってトレーニングされた [25] モデルは、KITTI ビジュアル オドメトリ データセットの 2D 単眼画像シーケンスの i 番目のフレームを意味的にセグメント化し、i 番目の意味的な 2D 画像を取得するために使用されます。(2) 融合。キャリブレーション パラメーターを通じて、i 番目の 3D LIDAR ポイントが対応する i 番目のセマンティック 2D 画像に投影され、i 番目の意味的に疎な 3D 深度マップが生成されます。(3) 補間。深度補間アルゴリズムを使用して、意味的に疎な 3D 深度マップをアップサンプリングすることで、低解像度 LIDAR ポイントが球特徴点と照合され、i 番目の密な 3D ポイント深度マップが出力されます。(4) ポジショニングと最適化。複数のスレッドと並行してリアルタイムのローカリゼーションとマッピング (ORB-SLAM2[6]) を実行し、姿勢/軌道とセマンティック 3D 点群の再構築を生成します。(5) ノイズフィルタリング。POSES と組み合わせて単一フレームの 3D 点群を再構築し、統計フィルターを使用して外れ値を除去します。(6) 増分マップ登録。姿勢情報を使用して、各フレームの 3D 点群が段階的に結合され、過剰な 3D 点群が再構築されます。(7) 冗長フィルタリング。ボクセル グリッド フィルターは冗長性を減らすために使用され、その結果、完全な姿勢マップや軌道マップなど、意味的に完全な 3D 点群の再構築が行われます。

3.1. データ融合と深さ補間

        既存の次元削減手法では、LIDAR 点群の球面投影と鳥瞰図投影が 3D 点群データを 2D 画像データとして表現する一般的な手法であり、深層学習タスクでよく使用されます [23]。ただし、これらの方法には重大な制限があります。点群は非常にまばらであるため、ほとんどの点群を 2D 画像と直接照合して深度情報を提供することはできません。また、点群の密度が低いため、融合されたデータで幾何学的構造が欠落することになります。さらに、これらの方法は、デカルト座標の点ではなく極座標を使用して点群をエンコードするため、フロントエンドの視覚的なオドメトリが複雑になる可能性があります。

        既存の次元削減手法では、LIDAR 点群の球面投影と鳥瞰図投影が 3D 点群データを 2D 画像データとして表現する一般的な手法であり、深層学習タスクでよく使用されます [23]。ただし、これらの方法には重大な制限があります。点群は非常にまばらであるため、ほとんどの点群を 2D 画像と直接照合して深度情報を提供することはできません。また、点群の密度が低いため、融合されたデータで幾何学的構造が欠落することになります。さらに、これらの方法は、デカルト座標の点ではなく極座標を使用して点群をエンコードするため、フロントエンドの視覚的なオドメトリが複雑になる可能性があります。

L_{t}={P_i \in R^{3}}各デバイスによって収集されたデータ座標系は異なるため、キャリブレーション データを使用して LIDAR スキャンをタイムスタンプ T の順序で RGB フレームに        投影し、 ORB 特徴点の深度値を提供します。画像内の LIDAR 点 pi = (x, y, z, 1) と投影点 pi = (u, v, 1) を定義します。タイムスタンプとキャリブレーション ファイルを使用して、PI が PI として 2D 画像にマッピングされ投影されます。KITTI 視覚走行距離計データセットを例として、方程式を使用して PI を生成します。

        (この式はレーザー点群を画像上に投影するものです)

        キャリブレーション ファイルによると、tr_velo_to_cam はグレースケール カメラ座標系への LIDAR の射影行列、R0_rect はグレースケール カメラの回転補正行列、P2 はカラー カメラの内部パラメータ行列です。LIDAR によって収集される画像密度はピクセル密度よりもはるかに低いため、LIDAR とビジョンの融合によって生成されるデータはまばらな深度マップになります。まばらな LIDAR ポイントは、画像内の球面フィーチャに対応できません。これを行うには、疎な深度マップをアップサンプリングして LIDAR ポイントの密度を高めます。

        密な深度マップでは、投影された点は、2D 画像内の対応するピクセルの意味論的情報を関連付けるための意味論的情報チャネルを持ちます。ここでh(\xi_{n^2 - 1})、 は意味情報を含む高密度深度マップ、 は\xi_{n^2 - 1}pi 近傍座標です。Z は pi の深さ、ω は計算の重みで、\xi_{n^2 - 1}pi と の間の空間距離の逆数です。Kd は正規化係数です。時間効率と精度を考慮して、n=5 に設定し、各投影点の周囲の 5^2-1 ピクセルで深度補間を実行します。ω と Kd は次のように定義されます。

        補間中、スパース融合画像を走査し、P と ζ の間のユークリッド距離を計算し (ユークリッド距離の逆数 ω は、投影された点とピクセル間の類似性に反比例します)、奥行き値を割り当てます。

(疎なレーザー ポイントを密な深度に補間するために使用される方法は、各真の値の近くの 25 ピクセルを実行し、重みは距離ですが、問題は、真の値を持つ 2 つのピクセル間の間隔が10、0 と 10 であると仮定すると、012 と 8910 の両方を補間できますが、34567 はすべて 0 ですか?)

3.2. ロケーションとBAの最適化

        ビジュアル オドメトリ (VO) は、主に画像を通じてロボットの姿勢を計算するビジュアル SLAM アルゴリズムのフロント エンドです。連続画像からの情報に基づいてカメラの粗い動きを推定し、バックエンドに適切な初期値を提供します。ベクトル (x, y, z, q0, q1, q2, q3)T を定義して、初期フレーム i0 から現在のフレーム ik までの剛体の動きを記述します。ここで、t0-k=(x, y, z) T は平行移動、四元数を表します。数値 (q0、q1、q2、q3) は、回転を表すために回転行列 R0-k に変換されます。

(これはクォータニオンを回転行列に変換する式です)

 次に、時刻 K における無人車両の姿勢 T を変換行列として定義します。

(姿勢変更行列は4*4、回転行列と平行移動行列で結合)

        VO は隣接するフレームの姿勢のみを計算するため、誤差は蓄積し続け、最終的には無人車両の軌道ドリフトにつながります。さらに、回転行列自体に制約がある (直交かつ行列式が 1) ため、最適化変数として使用すると、最適化がより困難になります。バックエンドでは、リー代数のバンドル調整および摂動モデルを使用して、無人車両の姿勢を最適化するために、制約のない最小二乗問題が使用されます。

        PNP (Perspective-N-Point) [26] は、3D-2D 点ペアの動きを解決する方法です。3D 点とその投影位置がわかっている場合、カメラのポーズは PNP によって記述されます。ノイズの影響を受けると、運動方程式と観測方程式は正確に等しくない場合があります。これに対処するために、最小二乗問題を定式化し、バンドル調整を使用してカメラのポーズとマップ ポイントの位置を最適化します [27]。図 2 は、再投影誤差の概略図を示しています。2 つのフレーム内の一致する球特徴点はそれぞれ P1 と P2 として定義され、深度マップはそれらに実際の深度スケールを提供し、P は観測点です。ノイズの影響により、P は P1* に誤って再投影されます。E は P1 と P1* の間の再投影誤差です。

        環境内の任意の 3D 点 P について、各ビューに対応するカメラの光学中心から発せられた光は、画像内の P に対応するピクセル点を通過した後、P で交差し、3D 空間内に一連のビームを形成します。特徴抽出および照合プロセスにおけるノイズとエラーにより、光が正しく収束することはほぼ不可能です。したがって、解く過程では、最終的に光線が P[27] で交差するように、求める情報を常に調整する必要があります。最適化する目的関数を最小二乗方程式として定義します。

 ガウス・ニュートン法 [27] で最小二乗問題を解くには、E と D のコスト関数の偏導関数を提供する必要があります。リー代数摂動モデルを使用して、T と D のヤコビアン行列 EJ と DJ は次のように計算されます。

ここで、[x, y, z]t はカメラ座標系のマップ ポイントの座標です。Cx と Cy はカメラの内部パラメータです。最適化問題は、グラフ点位置の独立変数ΔEの増分が非常に小さくなり、目的関数が最小値に収束するまでの勾配降下法となる。したがって、ガウス-ニュートン方程式 (11)[27] は方程式 (12) を導き出すことができます。

このうち、ヤコビ行列 J は変数に対するコスト関数の 1 次微分行列であり、ヘッセ行列 H は変数に対するコスト関数の 2 次の行列行列です。最適化プロセスでは、最初にフレームが照合されて初期のカメラ ポーズとマップ ポイントの位置が取得され、次に導関数と誤差が計算されます。目的関数が収束するまでガウス・ニュートン方程式を繰り返し解きます。

(ここで作者は pnp の式を書き直しましたが、prbslam rgbd のモードを直接適用することはできないでしょうか)

3.3. 3D セマンティック再構築

        VO とバックエンドの最適化後、セマンティック情報を備えた高密度深度マップを利用して、屋外環境の大規模 3D マップを再構築します。カメラ座標系の点 pi=(u,v,1) を次のように定義します。

        ここで、d∈[0.01,30] は深さの値、スケーリング係数 S=1000 です。カメラ内部パラメータ Cx、Cy=707.09、焦点距離 Fx=601.89mm、Fy=183.11mm。次に、世界座標系の点の位置、つまり 3D 再構成マップの座標は次のように定義されます。

(上記の式 1 とは逆に、既知の 2 次元画像座標 uv を 3 次元空間に逆投影すると理解できます)

アップサンプリングされたセマンティック深度マップには深度値エラーが発生し、再構築された 3D ポイントに外れ値が生じ、再構築されたジオメトリが破壊されます。統計フィルターを使用して個々のフレームの再構築を繰り返してノイズを除去します。統計フィルターは次のように定義されます。

 このうち、μKはK個の最近接点間の平均距離、dmaxは閾値、σ=0.8は平均距離の標準偏差、倍率α=0.8である。μk > dmax の場合、その点は外れ値とみなされ、削除されます。

(ここで著者が間違えた気がします。k 最近傍値、μ 平均値、σ 標準偏差です。距離 >dmax = μk+0.8σ の場合、外れ値とみなされます。著者はもともと σ を次のように書いています) =0.8 は標準偏差であり、μk> dmax は成り立ちません)

        単一フレームの増分累積再構成後、オーバーラップ領域に多数の冗長ポイントが存在し、メモリを大量に消費します。冗長性を削減し、3D 再構成の幾何学的構造を最適化するために、ボクセル グリッド フィルタリングを使用して再構成時に複数のボクセル グリッドを構築し、点群の重心を計算し、次のように定義される重心の周囲の点を削除します。 :

ここで、v はボクセル グリッドの重心、n はボクセル グリッド内の点群の総量、pi はボクセル グリッド内の点群です。ボクセルグリッドを一辺の長さ20cmの立方体として設定します。

(ここがよくわかりません。ボクセルグリッドで最適化すると重心を周囲20cm立方体の点に置き換えることができますが、セマンティックラベルはどのように置き換えるのでしょうか?最大手によると)

LIDAR と単眼視覚の融合に基づく SLAM および 3D セマンティック再構成方法を、図 1 に対応するアルゴリズム 1 に示します。

 4、実験と分析

        このペーパーで使用した実験プラットフォームは、Intel Xeon E3-1230 プロセッサ、NVIDIA GTX1080TI GPU プロセッサ、16GB メモリ、および Ubuntu 16.04 プロセッサで構成されています。私たちは公開データセットである Kitti Visual Odometry [9] と Cityscapes [29] を使用して実験を行っています。

4.1. セマンティックセグメンテーション

        Cityscapes データセットは、車載カメラを使用して都市環境データを記録し、詳細なセマンティック アノテーションを備えています。したがって、Cityscapes データセットを使用して MASK R-CNN をトレーニングします。注釈ファイルは JSON 形式で保存されます。Cityscapes データセットには合計 5000 枚のストリート ビュー画像があり、そのうち 2975 枚の画像がトレーニングに使用され、500 枚の画像が検証に使用され、1525 枚の画像がテストに使用されます。画像解像度は1024×2048です。

        KITTI のビジュアル オドメトリ データ セットは、ドイツ南西部のカールスルーエで収集されました。これには、00 から 10 までの 11 個の実際の軌跡シーケンスが含まれています [9]。そのうちシーケンス 01 は高速道路のシーンで、残りのシーケンスは都市部または田舎の道路シーンです。RGB シーケンスは解像度 1241 × 376 の PNG 形式で保存され、LIDAR スキャン データはサイズ 1900 KB の BIN 形式で保存されます。

        平均 AP、AP50、AP75 という物体検出評価基準を使用して、道路シーンで一般的に見られる 18 種類の物体をトレーニングしてセグメント化しました [30]。トレーニングされたモデルが KITTI ビジュアル オドメトリ データセットに適用され、シーン内のオブジェクトが異なる色で表現されます。セグメンテーションの結果を図 3 に示します。トレーニング後、AP50 値は 39.4、AP75 値は 29.8、平均 AP 値は 21.8 に達しました。Cityscape データセット上で Bisenetv2 によってトレーニングされた 18 種類のオブジェクトの精度を表 1 に示します。表からわかるように、面積が大きいオブジェクトほど認識されやすくなります。

4.2. データ融合と深さ補間

        図 4 は、生の RGB 画像と高密度深度マップの比較を示しています。スパースな LiDAR スキャンをセマンティック画像に投影し、融合されたデータに対して深度補間を実行します。深度マップでは、遠方のブラック ホールは、車両の位置から 120 メートル離れた、LIDAR スキャナのスキャン範囲外のエリアです。距離が遠すぎるため、上空の物体は放射された点群をライダースキャナーに反射できず、KITTI データ収集車両に搭載された Velodyne64 の垂直視野 (26.8°) によって制限されるためです [9]。深度マップの上部は 1241×150 です。エリア情報は失われます。ただし、私たちの方法は交通シーンに焦点を当てているため、欠落領域の屋根や空は必要ありません。

        私たちが提案する透視投影およびアップサンプリング手法は、点群座標を極座標ではなくデカルト座標に変換し、2D 画像の外観情報を保存します。透視投影と深度補間に基づいて、点群と意味イメージの融合が実現されるだけでなく、投影された点の密度も向上します。この融合方法により、複雑さを軽減しながら、ビジュアル オドメトリで単眼画像を LIDAR 点群と直接照合して位置を特定できるようになります。

4.3. ライダーと単眼視覚の融合に基づく測位精度

        この論文で提案されるアルゴリズムは、RGB シーケンスによってアップサンプリングされた密度-深度マップと深度補間アルゴリズムを利用して、無人車両の位置を特定します。ATE (絶対軌道誤差) [31] と変換誤差 [32] を使用して、KITTI ビジュアル オドメトリ データセットの位置特定精度を評価します。

        ATE は、推定された軌道とグランド トゥルースの間の直接的な差であり、アルゴリズムの精度と軌道の全体的な一貫性を非常に直観的に反映できます。推定された姿勢とグラウンド トゥルースは通常同じ座標系にないことに注意してください。そのため、公開されている評価ツールキット EVO を使用して 2 つの軌道を位置合わせし、誤差を計算します。I = 1 から I = m までのすべてのポーズについて、グラウンド トゥルース軌道 GTI とリー代数形式の推定軌道 TI を使用して ATE の RMSE を計算します。リー代数形式は次のように定義されます。

KITTI が正式に提案した平行移動誤差基準は、100 メートル、200 メートル、800 メートルの複数の等長軌道の平行移動誤差の算術平均であり、パーセントとして計算されます。軌道誤差の値が小さいほど位置決め精度が高くなります。翻訳誤差の計算式は次のように定義されます。

 式中、F は自動運転車の動きを記録した画像シーケンス、GT と T は自動運転車の姿勢の実数値と推定値、{GT, T}∈SE(3) です。TjTi は、フレーム i からフレーム j へのサブセグメントのポーズ変換です。

        図 5 は、KITTI Visual Odometry データセットの 00、01、05、および 07 シーケンスのグラウンド トゥルースに対する推定軌跡を示しています。(a) と (b) では、点線は無人運転車の実際の軌道を表し、実線は推定軌道を表し、ATE 値は右側の色のスペクトルに対応します。各シーケンスの軌跡は基本的にグラウンドトゥルースと一致しており、提案されたアルゴリズムがより良い位置特定結果を取得できることを示しています。(c) と (d) では、私たちの方法と ORB-SLAM2 の推定軌道を比較しています; この比較は、実験結果のドリフトが少ないことを示しています。

        表 2 は、この方法の軌道誤差を、KITTI Visual Odometry データセットの単眼 ORBSLAM2[6] および DynaSLAM[7] と比較しています。00 および 02~10 シーケンスでは、私たちの方法の平均 ATE は 1.39m です。ORB-SLAM2とDynaSLAMと比較して、誤差はそれぞれ87.51%、87.21%改善されています。シーケンス 01 は空いている高速道路のシーンを記録しており、抽出できる近距離の特徴点が不足しているため、本稿 [5] で提案されている特徴選択基準を満たすことが困難であり、単眼の ORB-SLAM2 および DynaSLAM アルゴリズムは機能しません。この論文で提案するアルゴリズムは正確な深度情報を利用しており、三角測量によって深度値を取得する必要がなく、効率的に位置を特定することができます。

        図 6 は、KITTI Visual Odometry データセット内のサブシーケンスの変換エラーを示しています。赤い曲線はグランドトゥルース、青い曲線は推定結果、青い破線は各サブシーケンスの変換誤差を表します。計算された軌道とグラウンド トゥルースの軌道の間の誤差は小さな変動範囲内に留まり、推定された軌道はグラウンド トゥルースの軌道と同様に 3D 空間内で変化することがわかります。

        この方法を他のマルチセンサー フュージョン SLAM 方法と比較します。表 3 では、KITTI Visual Odometry データセット上の DEMO [18] および DVL-SLAM [19] と、私たちの方法の平均変換誤差を比較しています。11 シーケンスのうち、7 つのシーケンスが DEMO を上回り、6 つのシーケンスが DVL-SLAM を上回っています。KITTI が使用する Velodyne64 LIDAR スキャナの検出範囲は 120 メートルですが、01 シーケンスではそれ以上の深度情報を提供できません。一部の特徴点が破棄され、大きな測位誤差が生じます。奥行き情報が欠落している領域では、DEMO は三角測量によって特徴点の奥行きを推定するため、我々の手法よりも多くの特徴点が保持されますが、DVL-SLAM は近距離の特徴点が少なすぎても影響を受けない直接法に基づいています。したがって、シーケンス 01 の方が測位精度が高くなります。

4.4. 3D再構築

        KITTI Visual Odometry データセットは 3D シーン内のオブジェクトのグランド トゥルースを提供しないため、このセクションでは MeshLab[33] を使用して 3D 再構成シーケンス 05 内のオブジェクトの長さを測定し、Google Earth[34] を使用します。実際の長さを測ります。2 つの測定値の相対誤差は、定量的な評価に使用されます。次に、シーケンス 06 で 3D 再構成を実行し、同じシーケンスでの DynSLAM [22] の再構成品質を比較して定性的評価を行います。比較のために、定量的および定性的評価で示した 3D 再構成では、シーンの元の色が保存されています。このセクションの最後では、シーケンス 00 の 3D セマンティック再構成を示します。点群内のオブジェクトのカテゴリをさまざまな色で表します。

4.4.1. 復興の定量的評価

        01系列の緯度と経度は、北緯9°0306.6、東経8°2351.4程度である[9]。図 7 (a) は、Meshlab を使用して 3D 再構成の長さを測定した概略図であり、測定された家の長さは 27.74 m であり、(b) は、Google Earth を使用して家の実際の長さを測定した概略図であり、長さは27.71メートルです。MeshLab の測定結果を観測値、Google Earth の測定結果を真値とすると、再構成誤差は約 0.09% となります。

        図 8 は、Google Earth と比較して再構成された道路幅を示しています。(a) は MeshLab によって測定された再構築された道路幅で、幅は 4.21 m、(b) は Google Earth で手動で測定された実際の道路幅で、測定された幅は 4.20 m です。再構成された道路幅員の相対誤差は約 0.24% です。

4.4.2. 復興の定性的評価

        図 9 は、シーケンス 06 の同じシーンについて、DynSLAM と比較した私たちの方法の再構成品質を示しています。再構築した点群の総数は 4.8 × 109 で、DynSLAM によって生成された点群の総数は 20 × 109 です。LIDAR の走査角が小さいため、全体ビューの 3D 再構成は実行できず、冗長性とノイズがフィルタリングされるため、点群の総量は比較的少なく、必要なストレージ容量はそれよりも約 76% 低くなります。ダイスラムの。

        図 10 は、同じ壁の再構成品質について、私たちの方法と DynSLAM アルゴリズムの比較を示しています。(a) はシーケンス 06 の 10 番目の画像です。(a) の右側の白い壁を参照として使用して、(c) の再構成の品質を (b) の DynSLAM と比較します。比較から、DynSLAM によって復元された壁は大きく変形していることがわかりますが、私たちの方法によって復元された壁の形状は正しいです。

 

        シーケンス 00 は、564 m × 496 m の都市風景を記録します。図 11 は、シーケンス 00 再構成の結果を示しています。地図上の車両、芝生、樹木、道路などのオブジェクトが異なる色で表されています。セマンティック再構築によりシーンの幾何学的構造が保存され、自動運転車は再構築されたマップ内のセマンティック情報を使用して、障害物回避ナビゲーション タスクを完了するのに役立ちます。Daniel らによる [35] は、カメラと LiDAR 点群からのセマンティック画像を融合し、オフロードの地形に焦点を当てていました。対照的に、私たちの方法は都市部の運転シナリオに適用できます。私たちのアプローチと同様に、大規模な 3D 点群マップを維持し、自動的にラベルを付けるために、David et al. [36] も Lidar 点群を意味的にセグメント化された 2D 画像に投影し、点群を意味的ラベルに関連付けています。ただし、まばらな LIDAR ポイントの根底にある幾何学的特徴を推測するには、実験領域で、以前に構築された密なマップから小さな密集したエリアを抽出し、その後にセマンティックな再構成を行う必要があります。私たちの方法は、深さの補間を通じてスパース性の問題に対処します。自動運転車が初めて運転するときは、事前に構築された地図を必要とせずに、ローカリゼーションとセマンティック再構築を同時に実行できます。LiDAR と単眼カメラを融合することにより、私たちの方法は、手動で注釈を付けることなく、単一のシーンで道路フィーチャを含む世界表現を自動的に生成できます。

 5。結論

        この論文では、LIDAR と単眼視覚の融合に基づく SLAM と 3D セマンティック再構成方法を提案します。深度補間アルゴリズムを設計し、セマンティック セグメンテーション ネットワーク BiSeNetV2 を使用して、セマンティック画像と LIDAR スキャンの融合を実現します。LIDAR ポイントによって提供される正確な深度情報を使用して、フィーチャベースの V-SLAM 位置特定精度を最適化します。また、ポーズ情報とセマンティック情報を組み合わせた高密度マッピング スレッドを追加して、無人車両の位置を特定しながら屋外シーンの 3D セマンティック マップを同時に再構築します。KITTI Visual Odometry データセットの実験的検証を通じて、次の結論を導き出すことができます。

        (1) 投影法と補間法に基づいて、まばらな LIDAR 点群がアップサンプリングされ、高解像度の 2D 画像と融合されます。意味的にセグメント化された画像は、意味的な情報を提供するために使用されます。実験結果は、融合されたデータが高い解像度と可視性を持ち、後続のアルゴリズムの動作と実験的検証を実現するための入力として使用できることを示しています。

        (2) 提案手法をビジョンベースの SLAM 手法およびライダービジョンフュージョン SLAM 手法と比較し、KITTI Visual Odometry データセットに対して実験を実行します。結果は、この方法の位置推定誤差が、ORB-SLAM2 および DynaSLAM と比較して、11 シーケンスすべてで大幅に減少していることを示しています。DEMO や DVL-SLAM と比較して、Lidar-vision fusion に基づく位置特定精度も向上しています。

        (3) 3D 再構成に関して、Google Earth で測定されたデータと比較して、再構成されたオブジェクトの幅の差は 0.5% 未満です。屋外環境の 3D 再構築用の DynSLAM と比較して、当社の再構築は高品質であり、必要なストレージ容量は 76% 削減されます。マップ表現は時間の経過とともに継続的に更新できます。一方、生成された意味論的再構成には、人間が理解できるラベルが付けられます。将来の自動運転技術の実用化をより適切にサポートできます。

        将来的には、カメラと IMU を組み合わせて VIO システムを構築するなど、位置決めの精度と再構成の品質を向上させるために、より多くのセンサーを融合して、抽出可能な特徴点が不足しているシーンでアルゴリズムがより適切に機能することを検討します。

要約:

アイデアはシンプルですが、作業量は多く、全体的に非常に充実感があり、特に実験の最後の部分は、プロジェクトを完了するのに十分すぎると感じています。著者たちは協力してこの作品を完成させました。これは 1 人の作業量とは異なります。Googleマップとの比較も予想外でした。しかし実際には、セマンティクスは測位には使用されず、LIDAR はセグメンテーションにも使用されません。実際、簡単に言うと、主なタスクは次のとおりです。

1. 補間された密な点群情報に 2 次元画像のセマンティック情報を色付けして、セマンティック セグメンテーション タスクを完了します。

2. 軌道に関しては、深度はもともと orbslam2 の三角測量によって取得されており、ここで使用される補間された深度 (実際には、これは LIDAR の補間である密な深度に相当します)

3. インクリメンタルマップステッチング

いくつかの個人的な理解と質問が本文内にマークされています ()。議論することを歓迎します~

おすすめ

転載: blog.csdn.net/qq_53086461/article/details/131147987