自動運転における3次元点群処理と学習(3)

3. 高精度地図の作成と3次元点群の処理

3- HD マップ作成モジュールの概要

自動運転用の高解像度 (HD) マップは、静的な 3D 環境と交通ルールを正確に表現した異種マップです。通常、次の 2 つのマップ レイヤーが含まれています。

  • 周囲環境の三次元幾何情報を表す点群マップ。

  • 道路境界、車線、交通標識、信号機、縁石の高さなど、交通ルールに関連する意味論的な特徴マップ。

オフライン HD マップを作成する主な理由は、道路の交通ルールをリアルタイムで検出して理解するのは難しすぎるためです。たとえば、既存のテクノロジーに基づくと、自動運転車が複雑な車線の合流や分岐交差点で正しい車線をリアルタイムで判断することは困難です。対照的に、すべての交通ルールと環境情報は、人間の監督と品質保証の下でオフライン プロセスを経て HD マップに簡単にエンコードできます。HD マップは、位置特定、知覚、予測、動作計画など、自動運転システムの複数のモジュールの設計を根本的に簡素化する強力かつ不可欠な事前知識を提供します。したがって、HD マップは自動運転に不可欠な部分として広く認識されています。高精度地図の役割は次のとおりです。

位置決めの優先順位位置特定の役割は、自動運転車の姿勢を特定することです。HD マップでは、点群マップと交通ルール関連のセマンティック特徴 (車線標示やポストポストなど) が、マップベースのローカリゼーションの事前分布としてよく使用されます。これらの事前情報を使用して点群マップをリアルタイム LIDAR スキャン点群に登録し、自動運転車のリアルタイムの高精度運動姿勢を取得します。

知覚的な事前知識知覚の役割は、シーン内のすべてのオブジェクトとその内部状態を検出することです。認識モジュールは、検出のために先験的に HD マップを使用できます。たとえば、HD マップ内の信号機の位置は、信号機の状態を推定するための知覚的事前分布としてよく使用されます。点群マップをアプリオリとして使用すると、リアルタイム LiDAR スキャン点群を前景点と背景点に分割できます。その後、背景ポイント、つまり路面や木の幹などの静的なシーン上にあるポイントを削除し、前景ポイントのみを認識モジュールに供給することが可能になります。この形式により、計算量が大幅に削減され、ターゲット検出の精度が向上します。

予測的な事前知識予測の役割は、シーン内の各オブジェクトの将来の軌道を予測することです。高精度地図では、3D 道路と車線の幾何学的構造と接続性が予測モジュールの重要な前提条件となります。このような事前知識を使用して、予測された物体の軌道を車線に従うようにガイドすることができます。

動作計画に関する事前知識動作計画の役割は、自動運転車の軌道を決定することです。HD マップでは、交通ルール (車線の形状と接続性、信号機、交通標識、車線の速度制限など) に関連するセマンティック機能が、動作計画モジュールの必須の前提条件となります。この事前知識は、正しい車線をたどり、一時停止標識やその他の交通標識に従うように、所定の軌道を誘導するために使用されます。自動運転には高精度の地図が重要であるため、高精度の地図を適時に作成し、更新する必要があります。これを達成するには、多くの場合、機械学習技術と人間の監督を利用して複数のモーダル取得からのデータを分析する複雑なエンジニアリング プログラムが必要になります。標準マップ作成モジュールには、2 つのコア コンポーネントが含まれています: 3D 点群ステッチングとセマンティック特徴抽出; 3D 点群ステッチングは、複数の車両から収集されたリアルタイム LIDAR スキャン点群データを点群マップに統合し、セマンティック特徴抽出車線のジオメトリと信号機が点群マップから抽出されるためです。

図に示すように、標準的な高精度地図生成システムには、3D 点群ステッチングと意味論的特徴抽出という 2 つのコア コンポーネントが含まれています。3D 点群ステッチングには通常、グラフ理論に基づく SLAM 手法が採用され、意味特徴抽出には機械学習と人間による監視の反復プロセスが含まれます。グラフベースの SLAM の重要なコンポーネントは、LiDAR ポーズ間の関係をモデル化するポーズ グラフです。ノードは、LiDAR ポーズと、LiDAR ポーズの 2 つのフレーム間の不整合レベルを表すエッジです。最終出力は、高密度の 3D 点群である点群マップと、道路標識、交通標識、信号機の位置を含む交通ルール関連のセマンティック特徴マップで構成されます。

3D点群の3-Bステッチ

3D 点群ステッチの目的は、さまざまな期間にフリートによって収集されたセンサー データを使用して、高精度の点群マップを生成することです。点群マップはすべての事前マップの精度に関連しているため、点群マップの局所的な部分にはセンチメートル レベルの精度が必要です。都市レベルの HD マップを迅速に作成および更新するには、3D 点群ステッチング プロセスが堅牢かつ効率的である必要があります。

3D 点群ステッチングの基本的な問題は、LIDAR ポーズとも呼ばれる、各 LIDAR スキャンの 6-DOF ポーズを推定することです。対応するリアルタイム LIDAR 点群のタイムスタンプが収集されるとき、マップ フレームは正規化されたグローバル フレーム、LIDAR フレームは自動運転車の自己運動点群フレームと考えてください。LIDAR ポーズは、マップ フレームと LIDAR フレーム間の変換になります。3D 変換と 3D 回転が含まれます。6-DOF ポーズは 4×4 の同次変換行列として表現できることに注意してください。LiDAR ポーズを使用すると、すべての LiDAR スキャン点群を標準化されたグローバル フレームに同期し、高密度の 3D 点群に統合できます。LiDAR の姿勢を推定するために、一般的に使用される手法は、Simultaneous Localization and Mapping (SLAM) です。Si と Sj をそれぞれ i 番目と j 番目のリアルタイム LIDAR スキャンとする。その SLAM 式は次のとおりです。

式では、pi は i 番目のリアルタイム LIDAR スキャン点群 h_Si に関連する 6-DOF 姿勢であり、Sj(pi, pj) は Si と Sj の間の負の対数最大尤度を表し、g(⋅) はマップを表します予測された LIDAR 位置とフレーム内の GPS 測定値の差の負の対数の可能性。h_SiSj は、反復最近点 (ICP) アルゴリズムの目的関数を表し、ICP アルゴリズムの目的関数を最小化します。

SLAM はロボット工学分野の重要な研究分野であり、最適化問題の解決に大量の研究が費やされています。たとえば、フィルターベースの SLAM は、最適化問題をほぼリアルタイムで解決します。ベイジアン フィルタリングは、リアルタイムのセンサー測定に基づいてマップと LIDAR の姿勢を繰り返し予測し、最適化するために使用されます。一方、グラフベースの SLAM は、経時的なすべてのセンサー測定値を使用して、すべての LIDAR ポーズを最適化します。ポーズ グラフを構築して、ポーズ間の LIDAR ポーズをシミュレートします。直感的には、各エッジの重みは、2 つの LIDAR スキャン ポイント間のポイントツーポイント距離、またはポイントツーサーフェス距離のいずれかになります。したがって、SLAM 方程式を解くことは、ポーズ グラフのエッジの重みの合計を最小化することと同じです。

都市レベルの HD マップを作成するには、SLAM ソリューションは次の要件を満たす必要があります。

ローカルマップとグローバルマップの精度が向上しましたローカル精度とは、あるローカル エリアの LIDAR 姿勢が別のエリアに対して正確であることを意味します。グローバル精度とは、HD マップ全体のすべての LIDAR 姿勢がグローバル フレームに対して正確であることを意味します。SLAM ソリューションの場合、自動運転ソフトウェア モジュールには高解像度マップの高精度ローカル環境が必要であるため、構築されたマップはマイクロラジアンあたりセンチメートルのローカル精度を達成する必要があり、センチメートル レベルのグローバル精度は、地図の更新プロセスの高速化に役立ちます。高解像度マップ、特に都市規模のアプリケーション向け。

高い堅牢性SLAM ソリューションは、複雑なシーンや複雑な運転条件で複数の車両によって収集された騒音センサーの測定データを処理する必要があります。

高効率。SLAM ソリューションは、数億を超える LiDAR ポーズの最適化を処理する必要があります。より高い精度と堅牢性を実現するには、グローバル最適化の形式によりグラフベースの SLAM の方が本質的により正確になるため、フィルターベースの SLAM よりもグラフベースの SLAM の方が良い選択肢となりますが、高い効率と堅牢性を備えています。この問題は 2 つの主な理由から依然として課題となっていますまず、舞台の規模が大きい。最適化アルゴリズムの中核となるステップは、n×n 行列 (n は LIDAR ポーズの総数) に関連付けられた一連の方程式を解くことであるため、総当り的な方法で最適化問題を解くのはコストがかかります。都市規模のマップの場合、n は数億になる場合があり、これは最適化アルゴリズムの計算効率と数値安定性に大きな影響を与えます。第二に、センサー データは複雑な運転条件下で収集されるため、ポーズ グラフのエッジ重みの計算精度が低くなります。たとえば、連続した LIDAR スキャンの点群間の不一致計算は、移動するオブジェクトの影響を受ける可能性があります。

この問題に効果的に対処するために、グラフベースの SLAM と階層的改良形式を採用できます[18]。階層的改良法の機能は、最適化が高速かつ正確になるように、グローバル最適化に適切な初期化を提供することです。階層的リファインメント形式は、ポーズ グラフ内の 2 種類のエッジ、つまり隣接エッジと閉じたエッジを区別します。隣接するエッジは 2 つの LIDAR ポーズ間の関係をモデル化し、その対応する LIDAR スキャン ポイントは同じデータセットからの連続したフレームです。ループ閉じたエッジは 2 つの LIDAR ポーズ間の関係をモデル化し、その対応する LIDAR 点群は点群です。異なるデータセット (異なる車両または時間の経過とともに) から同じ場所で収集されたフレーム。これら 2 種類のエッジを処理するために、階層的リファインメント フォームは 2 つのステップで構成されます。

(1)単一のデータセットからの LiDAR ポーズ マップを含む、隣接するエッジを最適化します。

(2)時間データセットにわたる LiDAR ポーズを含むループ クロージャ エッジを最適化します。

最初のステップでは、単に位置合わせされた LiDAR スキャンに依存して隣接するエッジを計算するのではなく、複数のモダリティ (IMU、GPS、走行距離計、カメラ、LiDAR など) からのセンサー測定値を融合できます。連続した LIDAR スキャンでは同様の LIDAR 姿勢が得られるため、この手順は通常は簡単で、非常に高い精度が得られます。2 番目のステップでは、ICP アルゴリズムによって LiDAR スキャンを位置合わせすることにより、ループ クロージャ エッジが計算されます。これら 2 つのステップの後、全体的な最適化が実行されます。姿勢グラフのほとんどのエッジは隣接するエッジであり、最初のステップで高精度に最適化できるため、階層的改良フォームは全体的な最適化のための適切な初期化を提供します。したがって、階層的リファインメント手法を採用することで、ポーズグラフ最適化全体の計算量を大幅に削減し、全体最適化のロバスト性を向上させることができます。

3-C点群の意味的特徴の抽出

意味的特徴抽出の目的は、車線の幾何学的特性、車線の接続性、交通標識や信号機などの交通ルールに関連する意味的特徴を点群マップから抽出することです。このモジュールには高い精度と再現性が必要です。たとえば、都市の HD マップで信号を見落とすと、知覚および動作計画モジュールに深刻な問題が発生し、自動運転の安全性が大きく損なわれる可能性があります。意味的特徴抽出コンポーネントは通常、次の 2 つの反復ステップで構成されます。

  • 最初のステップでは、機械学習テクノロジーを採用して自動的に特徴を抽出します。

  • 2 番目のステップでは、人間による監督と品質保証プロセスを導入して、意味論的特徴の高精度と再現性を確保します。

自動特徴抽出の場合、標準的な機械学習技術は畳み込みニューラル ネットワークに基づいています。通常、入力は、対応するリアルタイム LIDAR スキャン点群に関連付けられた LIDAR 地上画像とカメラ画像のコレクションです。Lidar 地上画像レンダリング 3D 点群ステッチングで取得された点群マップの BEV ベースの表現。各ピクセルの値は、各 LiDAR ポイントの地面の高さとレーザー反射率です。出力は通常、LIDAR 地上画像またはカメラ画像のセマンティック セグメンテーションです。これらのネットワークは、標準の画像セグメンテーション アーキテクチャに従っています。出力を取得した後、ピクセル単位のセマンティック ラベルが点群マップに投影されます。投影された 3D ポイントを 3D スプラインまたは 3D ポリゴンに当てはめることにより、交通ルールに関連する意味論的な特徴マップが取得されます。人間による編集ジョブの結果は、自動特徴抽出アルゴリズムのトレーニング データの重要なソースとしても機能するため、これら 2 つのステップが正のフィードバック ループを形成し、HD マップ作成の精度と効率が向上することに注意してください。

3Dマップ作成の課題

高精度地図の作成にはまだ課題がいくつかある。主なポイントは次のとおりです。

地球規模のセンチメートルレベルの点群マップ世界規模の高精度点群マップを使用した都市の大規模シーンの更新は非常に役立ち、都市の外観の変化は通常、ローカルなエリアで発生します。理想的には、マップ更新はポーズ グラフのターゲット部分に焦点を当てる必要がありますが、ローカル精度は高くてもグローバル精度がない点群マップでは、グローバルな観点からターゲット シーンに自由にアクセスできず、その全体的な精度を保証できません。対照的に、グローバルな精度が高い点群マップの場合、姿勢マップのオブジェクト部分の更新に集中できるため、計算規模が大幅に削減されますが、グラフベースの SLAM の場合、マップにグローバルな精度が必要です。精度が課題です。これは、グラフベースの SLAM のグローバル最適化手法では、各エッジのエラーがグラフ内で均一に分散される傾向があるためです。したがって、GPS 観測が正確であっても、グローバル最適化後に対応する LiDAR 姿勢には偏りが生じます。点群マップのセンチメートルレベルの地球規模の精度を確保することは、建物の峡谷、トンネル、地下ガレージなど、GPS 信号が利用できない場所では特に困難になる可能性があります。

自動セマンティック特徴抽出3D 点群とカメラ画像に基づくセマンティック セグメンテーション手法は広く研究されていますが、交差点や信号機での車線の相互関係を表す車線の接続性を自動的に抽出することは依然として課題です。これは、トレーニング ラベルが限られていることと、複雑な交通状況が原因です。現在、信号機から車線情報などの複雑な意味論的特徴を抽出するソリューションは依然として主に手動制御に依存しており、時間と費用がかかります。

おすすめ

転載: blog.csdn.net/scott198510/article/details/129397831