Visual-LiDAR Fusion ベースの同時ローカリゼーションとマッピングのレビュー

Visual-LiDAR Fusion ベースの同時ローカリゼーションとマッピングのレビュー

Vision-LiDAR 融合に基づく位置推定同時マッピング技術の調査


まとめ

自律ナビゲーションには、正確で信頼性の高いマッピングとローカリゼーション ソリューションの両方が必要です。この場合、同時ローカリゼーションとマッピング (SLAM) が非常に適したソリューションです。SLAM は、移動ロボット、自動運転車、無人航空機、自律型水中車両など、多くのアプリケーション シナリオに存在します。これらの領域では、視覚および視覚慣性 SLAM の両方がよく研究されており、文献で定期的に改善が提案されています。ただし、Lidar-SLAM 技術は、10 ~ 20 年前と比較的同じように見えます。さらに、ビジョン-LiDAR アプローチに焦点を当てた研究はほとんどなく、この融合には多くの利点があります。実際、フュージョン ソリューションは SLAM のパフォーマンスを向上させます。特に、動きが激しいシーン、照明が不十分なシーン、または視覚的な機能が不足しているシーンで顕著です。この調査では、ビジュアル ライダー SLAM に関する包括的な調査を提供します。SLAM の基本的な考え方とその実装をまとめた後、両方のモダリティにビジョン、LIDAR、およびセンサー フュージョンを使用したソリューションに焦点を当てて、SLAM 研究の現状を包括的にレビューします。

キーワード: SLAM、マッピング、ポジショニング、フュージョン、ライダー、カメラ、ビジョン


1.はじめに

移動ロボットの自律ナビゲーションは、過去数十年にわたって非常に活発な研究分野でした。自律ナビゲーションの要件は、第一に、ロボット自体の適切で正確な位置特定と、第二に、その環境に関する十分な事前知識または認識です。今日、使用されている主な測位システムは、地球上で高精度の絶対測位を提供する GNSS ソリューションです。ただし、このようなシステムは、環境 (トンネル、洞窟、都市の峡谷など) によっては常に利用可能または正確であるとは限らず、一部の機器でエラーが発生する可能性があり、安全な自律ナビゲーションには受け入れられません。さらに、移動ロボットは、潜在的な障害物がある動的な環境でもナビゲートできる必要があり、環境に関する事前情報 (惑星探査、捜索と救助など) を常に持っているわけではありません。)。ロボットがナビゲートできる唯一の方法は、何らかの形で環境を表現することです。オンラインで 3D マップを生成することは、3D 世界での完全自律型ナビゲーションの出発点のようです。このようなマップは、単純な幾何学的特徴またはより複雑なセマンティック オブジェクトで構成できます。一貫性のあるマップを使用すると、ロボットは自由空間、障害物、簡単に検出できるランドマークを検出して、正確で安全なナビゲーションを行うことができます。このようにして、ロボットは未知の環境を自己探索してマッピングし、安全に対話することができます。このようなモバイル ロボットの用途は、宇宙探査、自律走行車、海底分析、採掘用途、捜索救助、構造検査など、多岐にわたります。
このナビゲーション方法は、SLAM (Localization and Mapping) と呼ばれます。SLAM は、ロボット システムがさまざまな種類のセンサーを使用して環境のマップを構築すると同時に、環境内での位置を推定するプロセスです。このようなマップは、人間のオペレーターが環境を視覚化し、ロボットの経路を設定するために使用することも、ロボット自体が自律的にミッションを計画するために使用することもできます。これは、ロボットが独自の経路を計画し、人間の介入なしに正しい決定を下さなければならない自律ナビゲーションの場合です。このようなロボットは、不測の事態が発生した場合でも、自身の安定性を維持し、独自の動きを計画することができます。
このナビゲーション方法は、Simultaneous Localization and Mapping (SLAM) と呼ばれます。SLAM は、ロボット システムがさまざまな種類のセンサーを使用して環境のマップを構築すると同時に、環境内での位置を推定するプロセスです。このようなマップは、人間のオペレーターが環境を視覚化し、ロボットの経路を設定するために使用することも、ロボット自体が自律的にミッションを計画するために使用することもできます。これは、ロボットが独自の経路を計画し、人間の介入なしに正しい決定を下さなければならない自律ナビゲーションの場合です。このようなロボットは、不測の事態が発生した場合でも、自身の安定性を維持し、独自の動きを計画することができます。
現在、SLAM アプリケーションの最も研究されている環境の 1 つは自動運転車のドメインです。これは、環境をナビゲートするためにローカリゼーションとマッピングが必要であるためです。最近、業界は「自動運転」車と呼ぶものを提案しましたが、これらの車はセルフナビゲーションへの第一歩にすぎず、非常に特定された条件下でのみ安全かつ自動運転が保証されているため、「半自動運転車」と見なす必要があります。状況。現時点では、Tesla Autopilot は高速道路区間または単純なシナリオ [1] でのみ自動運転を保証しますが、ドライバーは十分な注意を払う必要があります。Google の車を考えてみましょう。この車は、既存の正確な 3D マップを使用して、気象条件が良好な場合にのみ「公道を」移動するように設計されています[2]。

ほとんどの自動運転車は、ライダーやステレオ カメラを使用して、ナビゲートしている環境を認識します。このようなシステムは、多くの場合、測位ソリューションの堅牢性を高めるために、差分全地球測位システム (DGPS) または衛星ベースの増強システム (SBAS) および慣性測定ユニット (IMU) と混合されます [3]。このセンサーを使用すると、非常に優れた GNSS を使用して、測位精度を数センチ以内にすることができます。ただし、GNSS が信頼できない場合は、他の測位ソリューションを調査する必要があります。最先端の技術のほとんどは、mmWave レーダー、LiDAR、単眼/ステレオ カメラなどの外部センサーを使用して、このローカリゼーションの問題に対処しようとしています。このような外感覚センサーと従来の固有受容センサー (IMU、オドメトリー) を組み合わせて使用​​することにより、この相対的な位置決め方法の累積誤差によるドリフトを軽減または排除できます。興味深いことに、最も一般的に使用されているモダリティ (カメラとライダー) は 2 つの非常に異なるセンサーであり、それぞれに長所と短所があります。たとえば、レーザー スキャナーは障害物の検出と追跡に重要ですが、雨の影響を受けやすく、カメラはシーンの意味解釈を取得するためによく使用されますが、照明条件が悪いと機能しません。それらは補完的であるように見えるため、それらの融合はそれぞれの主要な弱点のバランスをとっています。興味深いことに、SLAM の問題で最も困難な問題は誤差の蓄積であり、任意の高い値に達する可能性があります [4]。ビジョン センサーとライダー センサーを使用すると、局所的な不確実性を低減できるため、グローバル ドリフトが制限されます。

このホワイト ペーパーの目的は、新しいハイブリッド ライダー カメラ ソリューションに焦点を当てた既存の SLAM 手法の概要を提供することです。新しい研究者がこの論文にアクセスできるようにするために、最初にセクション 2 で SLAM プロセスの背後にある理論について簡単なヒントを示します。次に、現在の主な最先端ライダー カメラ ソリューションは、ビジュアル SLAM とライダー SLAM の単純な組み合わせであるため、SLAM の各モードの概要を把握することが重要であると考えています。セクション 3 では、さまざまなタイプのビジュアル SLAM (V-SLAM) メソッドに焦点を当てます。つまり、V-SLAM には単眼カメラとステレオ カメラだけでなく、最新の RGB-D カメラとイベント カメラもあります。その後、セクション 4 でライダーベースの SLAM の概要を説明します。最後に、セクション 5 ではハイブリッドカメラライダー SLAM の最新技術について説明し、何がカバーされているかを確認し、セクション 6 では何が残っているかを確認します。

2. 測位とマッピングを同時に行う

2.1 原則

SLAM は、センサーの動きを推定し、訪問エリアのジオメトリを再構築する技術です。この技術は、もともとロボットの自律制御のために 1985 年に開発されました [5]。SLAM は広く研究されており、さまざまなセンサーや複数のロボット プラットフォームに適用されています。1985 年以来、SLAM テクノロジーは絶え間なく開発されてきました。今日、いくつかの成熟したアルゴリズムが見られるようになりましたが、これらの方法は依然として、プラットフォーム、環境、および調整が必要なパラメーターに大きく依存しています。

基本的な考え方は、ランドマーク相関を使用することであり、ソリューションを改善するために必要です [6]。ループ内の各ランドマークは関連しているように見えるため、データ関連付けと組み合わせると、SLAM ソリューションはループ クロージャーを実行してマップの各ポーズの不確実性を減らすことができます [4]。

SLAM は推定問題です。ロボットの軌跡または姿勢を含む変数 X と、環境内のランドマークの位置を表す変数 M を推定したいと考えています。一連の測定値 Z = {z1, . . . . , zm} および測定モデルまたは観測モデル h(.) は、次のように X および M の関数として表されます
ここに画像の説明を挿入
SLAM は、次の方法で最大事後確率問題を解く傾向があります。p
ここに画像の説明を挿入
(Z|X,M) は、X と M が与えられた場合の測定値 Z の尤度であり、p(X,M) は X と M の事前確率です。
観測 ZK が独立していると仮定すると、MAP 問題は次のようになります。
ここに画像の説明を挿入
この SLAM マッピング問題は、拡張カルマン フィルター (EKF) [7] のおかげで最初に解決されます。不確実性を減らし、アルゴリズムの各ステップで推定値を提供します。確率モデルを使用して、EKF はマップの収束と一貫性を保証します。ただし、データ関連付けエラーに非常に敏感であり、すべてのランドマークとその共分散行列を永続的に更新するには、かなりの計算作業が必要です。図 1 は、EKF-SLAM プロセスのブロック図を示しています。最先端の方法は、バンドル調整 [8] やディープ ニューラル ネットワーク アプローチ [9、10] などの最適化手法のおかげで、このマッピングの問題に対処します。
ここに画像の説明を挿入
図 1 EKF-SLAM フローチャート。時刻 t に外感覚データが来ると、式 (5) を使用してそのときのロボットの状態を予測し、検出された特徴をマップの特徴と照合します。マッチングにより、式 (6) を使用して状態とマップを更新できます。検出がマップにない場合は、可能であれば初期化され、マップに追加されます。このプロセスは再帰的に行われます (式 (7) を参照)。

2.2 確率推定に基づく SLAM ソリューション フレームワーク

前に見たように、SLAM は再帰的な推定プロセスです。このプロセスは多くの場合、確率的な方法で表示されます。その場合、従来の予測と更新の手順を実行する必要があります。
未知の環境で移動するロボットを考慮して、次のように定義します:
xk: 時間 k でのロボットを表す状態ベクトル
xk | k-1: 既知の前の状態が与えられた場合の時間 k での推定状態
ベクトル uk: ロボットを動かすために適用される制御ベクトル車両から状態 xk (提供されている場合)
mi: i 番目のランドマークを記述するベクトル
zk,i: 時間 k における i 番目のランドマークの観測
X: 時間 0 から k までの車両位置のセット
U0:k: 制御入力のセット時間 0 から k まで
Z0:k: 時間 0 から k までの観測のセット
M: ランドマークまたはマップのセット
Mk|k-1: 時間 k-1 での前のマップが与えられた場合、時間 k で推定されたマップ。
ここに画像の説明を挿入
SLAM の確率形式を考えるとき、各時刻 k で、確率分布関数を計算する必要があります。
ここに画像の説明を挿入
先に進むには、P(xk-1| k-1, Mk-1|k-1|Z0:k-1、U0:k-1)。
これを行うには、まず、制御入力 P(xk|xk-1,uk) が与えられたときに状態予測を提供するモーション モデルを次のように定義する必要があります。同様に、知覚モデルまたは観察モデル P( も定義する必要があります
ここに画像の説明を挿入
。 zi , k|Xk, M) の場合、モデルは時間 k での検出 I に関するセンサー データを次の方法で推定された状態に関連付けます。 図 2 は、このセクションで使用されるすべての変数を表す SLAM パイプラインを示しています
ここに画像の説明を挿入

ここに画像の説明を挿入
図 2. SLAM プロセスの説明と表記。青は推定軌道と地図、白は軌道の真値
このステップでは、予測ステップと更新ステップを計算しました。SLAM は、方程式 (5) と (6) の組み合わせである次の方程式の反復推定として表すことができます
ここに画像の説明を挿入
。 SLAM 実装へのベイジアン アプローチ。SLAM 問題の解決策では、運動モデルと知覚モデルの両方を適切に計算して、再帰的な方法を効率的に計算する必要があります。現在の最先端の方法では、通常、慣性測定ユニットを予測ステップとして使用するか、車両の動きに関する仮定 (一定速度、一定加速度など) を行います。観察モデルを考えてみましょう。ビジュアル SLAM の場合、通常は逆深度モデルまたは従来の遠近法モデルに基づいています。LiDAR、RGB-D、または RADAR の方法を考慮すると、観察は 3D ワールドの直接 3D 測定であるため、モデルの観察がはるかに簡単になります。
ここに画像の説明を挿入
T = [R, t] の場合、センサーの 6D ポーズの剛体変換が提供されます。K はセンサーの固有関数であり、Π() は透視投影関数です。この関数は、古典的な観測モデル (P3D = g(P2D, K, T)) に一致するように反転する必要があることがわかります。ただし、このような反転は自明ではないため、通常、推定ステップは追加の P2D 観測のために延期されます。次に、P3Dmap を三角測量します。

2.3 グラフベースの SLAM フレームワーク ソリューション

LiDAR の場合、モデルはシンプルです。なぜなら、観測が古典的な剛体変換を介して状態に直接リンクされているからです.たとえば、
ここに画像の説明を挿入
LiDAR データで確率論的フレームワークを使用できますが、そのような SLAM メソッドは、グラフベースのアプローチにより解決されることがよくあります。ベースのメソッドは、相対変換のセットのみを最適化します [11]。

SLAM のグラフベースの定式化は、[12] によって提案されています。生のセンサー測定値を抽象化することにより、より単純な推定問題を定式化します。元の測定値は、グラフのエッジに置き換えられます。これは、「仮想測定値」と考えることができます。実際には、そのようなエッジは、相互の測定を条件とする 2 つのポーズの相対位置の確率分布としてラベル付けされます。図 3 に示すように、このプロセスは、グラフの構築 (フロントエンド) とグラフの最適化 (バックエンド) という 2 つの主要なモジュールで構成されています。制約がある場合、ほとんどの最適化手法は最適なマップを計算することに重点を置いています。これが SLAM バックエンドです。代わりに、SLAM フロントエンドはセンサー データから最適な制約を推定しようとします。
グラフベースの SLAM に関するチュートリアルは [13] にあります。
ここに画像の説明を挿入

3.ビジュアルスラム

SLAM 理論に言及した後、このセクションの目的は、ビジュアル SLAM を実行するためのすべての既存の方法の簡単な概要を提供することです。Visual-SLAM は、ロボット工学で最も活発な研究分野の 1 つです。ビジョン センサーは、安価で大量の情報を収集でき、広い測定範囲を提供できるため、SLAM ソリューションの主要な研究方向となっています。Visual-SLAM の原理は簡単に理解できます。このようなシステムの目的は、画像シーケンス内のピクセルの知覚された動きからカメラの動きを順次推定することです。これはさまざまな方法で行うことができます。最初のアプローチは、画像内のいくつかの重要なポイントを検出して追跡することです。これは、機能ベースのビジュアル SLAM と呼ばれるものです。もう 1 つは、特徴を抽出せずに画像全体を使用することです。このアプローチはダイレクト SLAM と呼ばれます。もちろん、RGB-D またはタイム オブ フライト (ToF) カメラ (画像だけでなく被写界深度も提供する) やイベント カメラ (変化のみを検出する) など、異なるカメラを使用する他の SLAM ソリューションも存在します。ピクチャー)。
このセクションでは、わかりやすくするために、ビジュアル SLAM をこれらのさまざまなカテゴリに分解することを提案します。

3.1 特徴点に基づくSLAM

機能ベースの SLAM は、フィルター ベースの方法とバンドル調整ベース (BA) の方法の 2 つのサブファミリーに再び分解できます。参考文献 [14] は、このような方法の比較を示しています。Davison らは、2003 年に最初の単眼方式 MonoSLAM を提案しました。[15,16]。特徴と姿勢の推定は、拡張カルマン フィルターを使用して簡単に行うことができます。このフィルターベースの手法は、状態に保持する必要がある機能が多すぎるため、大規模な環境では制限されることが示されています。この問題を軽減するために、2007 年に PTAM が提案されました [17]。ポーズとマップの推定を別々のスレッドに分離し、BA の使用を推奨しています。もちろん、多くの拡張も提案されています [18, 19]。BA を使用して機能ベースの SLAM を改善するために、キーフレームが表示されたかどうかを検出するためにループ クロージャーが追加されます [20、21]。執筆時点で、SLAM に最も一般的に使用されるアルゴリズムは ORB-SLAM [22、23] です。このアルゴリズムには、SLAM のパフォーマンスを向上させる「トリック」のほとんどが含まれており、さまざまなアルゴリズムを使用して単眼、ステレオ、および RGB-D カメラ構成を処理できます。このアルゴリズムの問​​題は、SLAM が特定の環境で機能するためには、多数の入力パラメーターを調整する必要があることです。しかし、すべてを調整するために環境について十分に知っている場合、本当に SLAM を実行する必要があるのでしょうか? [24] で提示された作業では、そのようなパラメーターの数を減らし、ビジュアル SLAM プラットフォームと環境を独立させようとしましたが、ORB-SLAM のパフォーマンスは達成されませんでした。

3.2 直接法による SLAM

特徴ベースの方法と比較して、直接方法は、特徴検出器や記述子を使用せずに画像を直接使用します。このような特徴のない方法は、通常、2 つの連続する画像をフォトメトリックの一貫性を持って登録します (特徴ベースの方法の場合、登録は特徴点の幾何学的位置に基づきます)。このカテゴリで最もよく知られている方法は、DTAM [25]、LSD-SLAM [26]、SVO [27]、または DSO [28,29] です。最後に、深層学習の発展に伴い、以前に提案された方法を模倣するいくつかの SLAM アプリケーションが登場しました [9、30]。このような研究努力により、環境を表す準高密度マップが生成されますが、直接 SLAM 法は時間がかかり、GPU ベースの処理が必要になることがよくあります。

3.3 RGB-D スラム

構造化光に基づく RGB-D カメラ センサー [31、32] は、最近、安価で小型になっています。このようなカメラはリアルタイムで 3D 情報を提供できますが、範囲が 4 ~ 5 メートル未満であり、技術が太陽光に非常に敏感であるため、屋内ナビゲーションに使用される可能性が最も高くなります。RGB-D vSLAM 方式については、[33–38] を参照してください。

3.4 イベント カメラ SLAM

最後に、イベント カメラは、視覚的な「イベント」(つまり、画像の変化) を検出することによって「無限」のフレーム レートを提供できる、生体にヒントを得たイメージング センサーです。このようなセンサーは、最近 V-SLAM [39–41] で使用されています。ただし、このテクノロジは、SLAM アプリケーションのパフォーマンスについて結論を出すほど成熟していません。

3.5 ビジュアル SLAM のまとめ

ご覧のとおり、V-SLAM 研究の分野は非常に豊富であり、主要な方法のみを確認します。visual-SLAM のより完全なレビューについては、[42,43] を参照してください。V-SLAM は良好な結果をもたらしますが、これらの V-SLAM ソリューションはすべて、光の変化やテクスチャの少ない環境に敏感であるため、エラーが発生しやすくなっています。さらに、RGB-D ベースの方法は、赤外光に基づいているため、日光に非常に敏感です。したがって、屋内シナリオでのみ適切に機能します。他のビジョン方法を考慮すると、ピクセルの変位を正確に推定できないテクスチャや過酷な環境がない場合は、うまく機能しません。最後に、画像解析には依然として高い計算の複雑さが必要です。概要については、表 1 を参照してください。
ここに画像の説明を挿入
これらの欠点により、研究者は、データ エラーを処理して実行時間を短縮できる、最適化された堅牢なアルゴリズムを作成するようになりました。これらすべての理由から、他のセンサーもSLAMプロセスについて調査されています。現在、最初の自動運転車のプロトタイプは、主に他のセンサー (RADAR または LiDAR) に依存しています。

4.レーザースラム

SLAM を実行するように設計されたすべてのモバイル ロボットに共通しているのは、外部センサーを使用することです。レーダー ベースの SLAM は効果的であることが証明されていますが [44–46]、この論文ではレーザー スキャン デバイスに焦点を当てることにしました。この選択の理由の 1 つは、レーダーがまだ車両の周囲の優れた 3D マップを提供できるほど正確ではないため、ビジョン センサーとの融合が非常に難しいことです。LiDAR を念頭に置いて、レーザー スキャナーを使用した 3D マッピングは、そのシンプルさと正確さから、依然として人気のある手法です。実際、LiDAR を SLAM 問題に適用すると、許容できる計算量で低ドリフトのモーション推定が可能になります [47]。
レーザー スキャン方法は、2D および 3D マッピング研究の基礎となるようです。LiDAR は、SLAM で簡単に実装できる点群を提供できます。ストップ アンド スキャン [48] は、LiDAR を使用して適切な SLAM ソリューションに到達するための最初の試みの 1 つです。モーションの歪みを回避しますが、ナビゲーションの信頼できるソリューションではありません。IMU との融合は、速度情報を入力として受け取るエラー モデルを使用してモーションの歪みを修正できます [49]。IMU はデータの歪みを解消するためによく使用されますが、動きを予測するためにもよく使用されます。[50] の作業は、このアプローチが過剰収束につながる可能性があることを示しており、LiDAR オドメトリ ベースの歪み解析を提案しています。

4.1 スキャンマッチングとグラフ最適化

スキャン マッチングは、動きに関する正確な情報を提供する LiDAR を使用して 3D マップを作成する基本的なプロセスです。3D 点群を登録する一般的な方法は、Iterative Closest Point (ICP) [51] です。原理については、図 4 を参照してください。その主な欠点は、ポイント対応の検索にコストがかかることと、開始​​点を最小限に抑えるための感度が高いことです。この問題を解決するために、kd-tree 構造 [47] を導入して、最近点の検索を高速化できます。[52] の研究では、スキャン プレーンの構造を考慮した確率的フレームワークを使用することで、ICP のロバスト性を強化できることが示されています。これが一般化された ICP です。別のアプローチは、極スキャン マッチング (PSM) [53] です。これは、レーザー スキャナーによって提供される極座標を利用して、各ポイント間の一致を推定します。
ここに画像の説明を挿入
ローカルエラーを減らすために、グラフベースの方法 [54] を LiDAR と一緒に使用できます。ロボットのポーズの履歴はグラフで表されます。各ノードはセンサー測定値を表し、エッジは観測によって生成された制約を表します (ICP 結果から)。ポーズ グラフに依存するすべてのメソッドは、Levenberg–Marquardt オプティマイザなどのさまざまな最適化メソッドを使用して解決できます。
航空機のナビゲーションを例にとると、[55] は GNSS と IMU を組み合わせた 2D LiDAR の使用を提案しました。スキャン マッチングは、2D と 3D LiDAR の両方で実行できることに注意してください。2D LiDAR アプリケーションを考慮すると、「フラットな」世界の仮定の下で、フィルタリング ベースの方法も提案されます。
航空機のナビゲーションを例にとると、[55] は GNSS と IMU を組み合わせた 2D LiDAR の使用を提案しました。スキャン マッチングは、2D と 3D LiDAR の両方で実行できることに注意してください。2D LiDAR アプリケーションを考慮すると、「フラットな」世界の仮定の下で、フィルタリング ベースの方法も提案されます。

4.1.1 カバレッジ マップと粒子フィルター

SLAM 問題を解決するもう 1 つの効果的な方法は、Gmapping [56] などの Rao Blackwellized 粒子フィルターを使用することです。ローカル エラーが大幅に減少し、平面環境で興味深い結果が得られます。各パーティクルは、可能なロボットのポーズとマップを表します。ただし、環境を正しくマッピングするために必要な多数のパーティクルにより、無視できない計算時間が発生します。[57] の研究は、2D SLAM に適用された粒子フィルターが、尤度モデルに基づいて非常に正確な提案分布を計算できることを示しています。その結果、従来の方法よりも桁違いに少ない数の粒子を使用して、正確な占有率ラスター マップが作成されます。もちろん、この手法を 3D に適用することは、占有されるグリッドのサイズのために非常に困難です。

4.1.2 ループバック改良手順

以前のソリューションでは、ローカライズされた情報を取得し、オドメトリ方式で環境のマップを作成することができました。SLAM の問題に完全に対処するために、LiDAR オドメトリにループ クロージャ ステップが追加されました。グローバル マップの一貫性を向上させるために、ロボットが所定の場所に配置されたときにループ クロージャを実行できます。[58] などの機能ベースの方法で実行できます。レーザー スキャンでは、線、平面、球体などの幾何学的記述子が使用されます。これらのディスクリプタは、最終的なサイクルを検出するためにスキャン間のマッチングを実行するために使用されます。各スキャン間のスキャンマッチャはリアルタイムで実行することはほとんどできないため、[59] では複数のスキャンの環境を表すサブグラフが使用されています。完成したすべてのサブグラフは、スキャン マッチング ループに自動的に挿入され、現在のロボット ポーズの周りのスライディング ウィンドウでループ検出が実行されます。マグナソン等。[60] は、3D 雲の正規分布変換 (NDT) 表現を使用したプリミティブ ループ検出プロセスを提案しました。これは、表面の向きと滑らかさを表す特徴のヒストグラムに基づいています。
[55] の作業は、LiDAR-SLAM の全体的なドリフトが、ループ クロージャーを実行することによって効果的に修正できることを示しています。彼らの場合、カルマン フィルターは、ループを検出できる位置認識モジュールで単純に強化されました。表 2 は、LiDAR ベースの SLAM をまとめたものです。
ここに画像の説明を挿入

5. レーザービジョン融合

前述のように、SLAM はビジョン センサーまたは LiDAR を使用して実行できます。視覚センサーの利点は、現時点で十分に研究する必要があることです。V-SLAM は正確な結果を提供しますが、次のようないくつかのデフォルト値があります: 単眼の場合のスケール係数のドリフト、不十分な深度推定 (深度の初期化の遅延) またはステレオ ビジョンの狭い範囲、再構成マップのスパース性 (フィーチャ用) 、アウトドアシーンでRGB-Dを使う難しさなど。3D LiDAR ベースの SLAM を考慮すると、使用される手法はスキャン マッチングとグラフ ポーズに依存します。一部のソリューションはランドマークの検出と抽出に重点を置いていますが、通常、得られた点群は効率的に実行するのに十分な密度ではありません。それにもかかわらず、LiDAR の主な利点は、測距と地図作成の精度が非常に高いことです。今日、両方のアプローチの融合が、最新の SLAM アプリケーションに大いに役立つことは明らかです。もちろん、両方の方法を使用するには、最初の困難なキャリブレーション手順が必要です。このセクションでは、利用可能なキャリブレーション ツールと LiDAR カメラ フュージョン方法に関する最新技術を紹介します。

5.1 必須の校正手順

最適なパフォーマンスで LiDAR カメラ フュージョンを介して SLAM を実行するには、2 つのセンサー間の正確なキャリブレーションを確保する必要があります。図 5 に示すように、カメラと LiDAR 間の相対的な変換を決定するには、外部キャリブレーションが必要です。
LiDAR に対してカメラをキャリブレーションするための対話型ソリューションを提案する最初のツールボックスの 1 つは [61] です。これは、LiDAR スキャンとカメラの対応するポイントを手動でマークすることで構成され、[62] の作業では、自動カメラ レーザー キャリブレーションのためのチェッカーボードの使用が詳述されています。2 つのセンサー間の適切な剛体変換を推測するために、ライン抽出を実行します。ただし、これらのオフライン キャリブレーション手法は、最適な外部キャリブレーションに使用することはできません。これは、外部パラメーターが毎日変化し、機能するために非常に特殊な条件が必要になるためです。
ここに画像の説明を挿入
図 5. 外部キャリブレーションの原理。目標は、LIDAR とカメラの間の剛体変換 MCL を見つけることです。現在、これは通常、2D または 3D のチェッカーボードまたはパターンなどのキャリブレーション ターゲットを使用して、各モード (MB ランド MB C) でこのパターンを検出することによって手動で行われます。
最近、深層畳み込みニューラル ネットワーク (CNN) がロボティクス アプリケーションで一般的になったため、[63] の研究では CNN ベースのキャリブレーションが提案されています。CNN は、LiDAR とカメラの視差を入力として受け取り、キャリブレーション パラメーターを返します。これにより、リアルタイム アプリケーションに適した高速インライン キャリブレーション ソリューションが提供されます。

5.2 ビジョンレーザー SLAM

5.2.1 EKF 融合に基づく SLAM

ビジュアル ライダー SLAM のコンテキストでは、拡張カルマン フィルター (EKF) SLAM の古典的な定式化を変更して、このようなセンサー フュージョンを統合できることが示されています。[64] の研究では、データ関連付けを使用した EKF の新しい表現が提案されており、SLAM の精度が向上しています。[65] の研究では、LiDAR EKF SLAM を備えた RGB-D カメラも紹介されています。この作業の主な目的は、視覚追跡の失敗に対処することです。それができない場合、RGB-D カメラからの点群データは、LiDAR ポーズを使用してローカライズされ、3D マップが構築されます。このようなアプローチは、実際には融合を提供するのではなく、2 つのモード間の切り替えメカニズムを提供します。[66] の作業は、マイクロ航空機用の低コスト ハードウェアのコンテキストで、視覚および慣性測定に基づく EKF を使用して、さまざまな最先端の SLAM アルゴリズムを統合します。2D LiDAR は SLAM システムに統合され、2.5D マップを生成し、ロボットの姿勢推定を改善します。このように提案された方法は、依然として疎結合の方法であり、測定空間での特徴検出に依存していません。より緊密に結合された LiDAR ビジョン センサー フュージョン アルゴリズムは、文献にはまだありません。

5.2.2 改良されたビジュアル SLAM

別の観点から見ると、ビジュアル SLAM アルゴリズムによって達成される優れたパフォーマンスは、これらのフレームワークで最適なソリューションを取得するためにセンサー フュージョン技術を使用する動機となります。[67] では、深度抽出に LIDAR が使用されました。点群をフレームに投影した後、視覚的なキーフレーム ベースのバンドル調整を使用してモーション推定とマッピングが実行されます。文献 [68] は、LiDAR のまばらな深度点群を使用する直接視覚 SLAM を提案しています (図 6)。ただし、カメラの解像度は LiDAR の解像度よりもはるかに高いため、多くのピクセルには深度情報がありません。[69] で提示された作業は、解像度の一致の問題に対する解決策を提供します。2 つのセンサー間の幾何学的変換を計算した後、欠損値を補間するためにガウス過程回帰が実行されました。したがって、LiDAR のみを使用して、画像で検出された特徴を RGB-D センサーと同じ方法で直接初期化できます。

ここに画像の説明を挿入
図 6. 画像に再投影された LiDAR の例。キャリブレーションのわずかな誤差が推定深度の重大な誤差につながることに注意してください (ボックス 2 を参照)。ステレオ ビジョンに関して誤って取得された深度に対処しました。

Zhang ら [70] は、1D レーザー距離計に関連付けられた単眼 SLAM を提案しました。単眼 SLAM はしばしばスケール ドリフトに悩まされるため、このソリューションは非常に低いハードウェア コストで効果的なドリフト補正を提供します。シェラー等。[71] は、飛行ロボットとハイブリッド フレームワークを利用して、川の流れと植生をマッピングしました。視覚オドメトリと慣性計測を組み合わせた状態推定が行われ、LiDAR を使用して障害物を感知し、河川境界をマッピングします。ただし、点群には、推定の精度を低下させる遮られた点が含まれる場合があります。[72] の作業では、閉塞点検出器と共面検出器を使用した直接 SLAM アプローチを提案することで、この問題に対処しています。これらの最新の論文では、マッピング フェーズ中に LiDAR ポイント クラウドを記録するために、ビジュアル SLAM 推定ポーズが使用されています。

5.2.3 改善されたレーザー SLAM

ビジュアル LiDAR SLAM の多くの場合、LiDAR はスキャン マッチングによるモーション推定に使用され、カメラは特徴検出を実行します。梁ら。[73] は、スキャン マッチングに ORB を使用したビジュアル ループ検出スキームを使用して、LiDAR ベースの SLAM のパフォーマンスを強化しました。[74] では、3D レーザー ベースの SLAM は、bag-of-visual ワードを使用したキーフレーム ベースの手法によってループ検出を実行するビジョン アプローチに関連付けられていました。さらに、反復最近点 (ICP) は、LiDAR カメラ フュージョンを使用して最適化できます。[75] の作業では、視覚情報を使用して、その後の ICP 推定に使用されるポーズ変換に関する最初の推測を行います。

5.2.4 レーザー ビジョン コンシステント SLAM

他の研究では、LiDAR とビジュアル SLAM の結果を組み合わせようとしています。[76] の作業では、SLAM をモダリティごとに並行して実行し、データを結合することにより、ビジョンと LiDAR 測定を使用することを提案しています。これは、最適化フェーズ中に両方のモダリティからの残差を使用することによって行われます。張ら。[77] は、以前の研究を組み合わせて VLOAM を設計しました。このビジュアル LiDAR オドメトリは、高周波数のビジュアル オドメトリと低周波数の LiDAR オドメトリを実行して、動きの推定を改善し、ドリフトを修正します。
おそらく、現在利用可能な最も緊密な融合方法は [78] で提案されており、レーザーと特徴点の制約を考慮した特定のコスト関数を使用してグラフの最適化が実行されます。ここでは、レーザー データと画像データの両方を使用して、ロボットの姿勢推定を取得できます。ループ検出を高速化するために、2.5D マップも作成されました。

  1. ジャン、G.; レイ、Y。ジン、S。Tian、C。馬、X。おう、Y.
    低コストの LiDAR とビジョン フュージョンに基づく 2.5D マップ構築のための同時ローカリゼーションおよびマッピング (SLAM)フレームワーク。アプリケーション 科学。2019 年 9 月 2105 日。

5.3 まとめ

要約すると、これらの例では主にセンサー フュージョンを使用して、LiDAR のみまたはビジョンのみの SLAM フレームワークに関する詳細情報を提供します。このような SLAM を実現するためのすべてのアプローチ (図 7 を参照) の中で、ハイブリッド フレームワークは最も研究されていません。視覚情報とレーザー範囲を使用して一般的な SLAM フレームワークを作成することは、非常に難しいようです。より緊密に結合された LiDAR とビジョン センサーの融合アルゴリズムは、文献で十分に研究されておらず、調査する必要があります。
ここに画像の説明を挿入

6. 今後の研究の方向性について話し合う

文献を調べたところ、両方のセンサー モダリティを利用する、完全に緊密に融合された視覚的 LiDAR アプローチはまだ存在しないようです。LiDAR 機能と視覚機能を緊密なハイブリッド方式で融合することは、SLAM コミュニティに利益をもたらすと述べています。実際、マルチモーダルでハイブリッドなマルチ制約 MAP 問題を解決することは実現可能です。このようなソリューションにより、SLAM は照明や天候などの環境条件に対してより堅牢になります。V-SLAM は、過酷な照明条件やテクスチャのない環境では機能しないことが知られていますが、LiDAR SLAM は機能します。一方、LiDAR-SLAM は、雨が降る状況 (誤った衝突が検出される) や、カメラベースの SLAM がうまく機能しない幾何学的に顕著な領域 (空の領域、長い廊下) でうまく機能します。
多制約MAPアプローチで、さまざまなモダリティから抽出されたさまざまなランドマークのセット(L = {Lvision、LLiDAR}など)を使用して、いくつかのハイブリッドアプローチを調査することを提案します(図8を参照)。

ここに画像の説明を挿入
提案されたフレームワークは、([24] で提案したように) 古典的な SLAM アーキテクチャに従い、主に次の 3 つのステップを含みます: (1) データ処理ステップ、特徴検出、および 2 つのモダリティの追跡; (2) 最初に推定する推定ステップ追跡されたフィーチャからの車両の変位 (これは、ICP、エピポーラ ジオメトリ、固有受容センサー、またはカルマン フィルターや多基準最適化などのそれらの融合によって実行できます) を検出し、マップ内のランドマークとフィーチャを検出しようとします。一致; 一致が完了すると、ポーズを洗練 (フィルター処理/最適化) し、最終的に新しいランドマークを推定できます。最後のステップ (3) はグローバル マップを扱います。現在のデータはキーフレームを定義しているか (十分な新しい情報をもたらしているか)、ループ クロージャの検出に基づいて、ローカルまたはグローバルの最適化軌道であるか? このフレームワークが適切に機能するためには、(1) 特徴検出のための LiDAR スキャン解析、および (2) カメラと LiDAR のキャリブレーション プロセスに大きな努力を払う必要があります。これら 2 つの問題に対する正確な解決策が見つかれば、LiDAR とビジョンの間の密結合がデータ レベルで可能になり、より正確な状態推定が可能になります。

7. 結論

研究者は、SLAM の最適な実装を見つけるためにさまざまな調査を実施しました。結局のところ、自律型ロボットは自身の姿勢と周囲の地図を同時に推定できるため、SLAM はロボット工学における有望で刺激的な研究トピックであり続けています。理論的には、自律ナビゲーションの完全なソリューションです。しかし、実際には多くの問題が発生する可能性があります。これは非常に有望な解決策のように思えますが、SLAM の開発が真の自律航行にどの程度つながるかを予測できますか? したがって、SLAM とその人工知能移動ロボットへの貢献について理解を深める必要があります。
現時点では、IMU と組み合わせたビジョン センサーを使用した強力で効果的なソリューションがいくつか存在します。今日、この方法は主に仮想現実または拡張現実に基づく産業用アプリケーションで使用されています。RGB-D カメラは注目の話題ですが、そのようなセンサーは屋外環境 (周囲光が検出を大きく妨げる場所) ではうまく機能しません。ビジョン手法はドリフトしやすく、環境に顕著な特徴がないことに非常に敏感です。室内の単調な環境における特徴の欠如を克服するために、線、線分、またはエッジなどの幾何学的特徴が研究されてきました。このようなランドマークの主な問題は、(1) マッチング段階の正確な記述子の欠如、および (2) 対応する 3D オブジェクトがほとんど検出されない困難な初期化段階です。その結果、環境の 3D スパース表現は、機能の不一致または初期化エラーのために正確さが低下します。最後に、ランドマーク表現が異なるいくつかのハイブリッド マップが生成されます。次に、これらのさまざまなオブジェクトと観測を使用して、一般化された多重制約 MAP 問題が解決されます。

一方、LiDAR ベースの SLAM も存在し、優れたソリューションを提供します。LiDAR 手法は、環境の非常に正確な 3D 情報を提供しますが、多くの場合時間がかかり、依然として非常に単純で堅牢ではないスキャン マッチング手法に依存しています。現在、いくつかの 3D ランドマークを抽出することによって 3D スキャンの分析に取り組んでいる作品はほとんどありません。3D LiDAR を使用する SLAM メソッドのいずれも、ビジョンベースのフレームワークと同様の方法でランドマークを処理しません。その理由は、LiDAR ランドマークの分析と抽出に必要な処理時間です。現在、LiDAR-SLAM メソッドで使用される機能は平面のみです。ただし、平らな面は、構造が整っていない自然な屋外環境ではあまり役に立ちません。LiDAR ベースの SLAM は、主に ICP などのスキャン マッチング手法に基づいています。このアルゴリズムは、30 年前に発明されて以来、ほとんど変わっていません。
LiDAR とビジョン センサーを結合するいくつかの実験がありましたが、それらはすべて非常に緩やかに融合されたレベルにあります。融合は主に 2 つのオドメトリ ステップの結果を使用して行われます。つまり、LiDAR 検出または視覚的検出は互いに助け合うことができず、融合された相対変位推定の最後のステップで決定が行われます。他の方法では、LiDAR の深度測定のみを使用して視覚的特徴を直接初期化します。繰り返しますが、ライダーの機能は完全に活用されていません。
今後の作業では、センサー フュージョンを使用した SLAM のタイト ハイブリッド実装を調査します。カメラ フレームを LiDAR ポイント クラウドに融合することで、堅牢でドリフトの少ない SLAM フレームワークを構築できると期待しています。また、LiDAR の価格が年々下がっているため、このソリューションは時間の経過とともにコストが低くなると予想されます。


おすすめ

転載: blog.csdn.net/qq_21830903/article/details/108996939