20,000 ワード | ビジュアル SLAM 研究レビューと将来のトレンドのディスカッション

翻訳: Visual SLAM: 現在のトレンドと何が期待されていますか?

講演内容: Visual SLAM 研究レビューと今後の動向についてのディスカッション

翻訳:ドン・ヤーウェイ

特別な注意事項:この記事にはビジュアル SLAM のあらゆる側面を含む合計 24,000 ワードが含まれています。詳細を読む必要がある場合は、背景の返信 [ 221101 ]を参照してください。オリジナルおよび翻訳されたドキュメントをダウンロードできます。

要約:近年、ビジョンベースのセンサーは、同時位置特定とマッピング (SLAM) システムにおいて顕著なパフォーマンス、精度、効率を実証しています。ここで、視覚的同時位置特定およびマッピング (VSLAM) 手法とは、姿勢推定とマップ生成にカメラを使用する SLAM 手法を指します。

ビジュアル SLAM はコストが低いにもかかわらず、VSLAM は特定のセンサーのみに依存する従来の方法よりも優れたパフォーマンスを発揮できることが、多くの研究で示されていることがわかります。VSLAM 手法は、さまざまなタイプのカメラ (単眼、ステレオ、RGB-D など) を利用し、さまざまなデータセット (KITTI、TUM RGB-D、EuRoC など) およびさまざまな環境 (屋内と屋外など) で実行されます。環境をより深く理解するためにテストされ、さまざまなアルゴリズムと方法が採用されています。

上記の変化により、この研究テーマは研究者の間で広く関心を集めるようになり、多くの VSLAM 手法が作成されました。これに基づいて、このペーパーの主な目的は、VSLAM システムの最新の進歩を紹介し、既存の課題と傾向について議論することです。私たちは、VSLAM の分野で出版された 45 の影響力のある論文について詳細な文献調査を実施し、手法の革新性、ドメイン アプリケーションの新規性、アルゴリズムの最適化、セマンティック レベルなどのさまざまな特徴に従ってこれらの論文を分類し、現在の傾向と将来の方向性についても議論しました。が特定され、研究者の研究に役立つ可能性があります。

01 はじめに

Simultaneous Localization and Mapping (SLAM) は、エージェントの位置を特定しながら未知の環境のマップを構築するプロセスを指します [1]。ここで、エージェントは、家庭用ロボット [2]、自律走行車 [3]、惑星探査車 [4]、さらには無人航空機 (UAV) [5]、[6] や無人車両 (UGV) である場合もあります。 [7]。地図が利用できない環境やロボットの位置が不明な環境では、SLAM は幅広い用途に使用できます。近年、ロボット技術の応用の継続的な改善に伴い、SLAM は産業界や科学研究界で大きな注目を集めています [8]、[9]。

SLAM システムは、レーザーベース、音響、視覚などのさまざまなセンサーを使用して環境からデータを収集できます [10]。単眼カメラ、ステレオカメラ、イベントベースカメラ、全方向カメラ、RGB 深度 (RGB-D) カメラなど、さまざまな視覚ベースのセンサーがあります。視覚センサーを備えたロボットは、カメラから提供される視覚データを使用して、周囲に対するロボットの位置と方向を推定します [11]。SLAM に視覚センサーを使用するプロセスは、視覚 SLAM (VSLAM) です。

SLAM で視覚データを使用すると、ハードウェアが安価になり、より直観的なオブジェクトの検出と追跡が可能になり、豊富な視覚情報と意味情報を提供できるという利点があります [12]。キャプチャされた画像 (またはビデオ フレーム) は、セマンティック セグメンテーションやオブジェクト検出などのビジョンベースのアプリケーションでも使用できます。上記の特性により、VSLAM はロボット工学で人気の方向性となり、過去数十年にわたってロボット工学やコンピューター ビジョン (CV) の専門家による多くの研究や調査が行われてきました。したがって、VSLAM は、自動運転、拡張現実 (AR)、サービス ロボティクスなど、環境の 3D モデルの再構築を必要とするさまざまなアプリケーションにすでに存在しています [13]。

高い計算コストを解決するために [14] で紹介された一般的な方法として、SLAM 方法は主にトラッキングとマッピングという 2 つの並列スレッドを含みます。したがって、VSLAM で使用されるアルゴリズムの分類は、研究者が各スレッドで異なる方法と戦略をどのように使用するかを表すことになります。SLAM システムで使用されるデータの種類に応じて、SLAM メソッドは、直接メソッドと間接メソッド (機能ベース) の 2 つのカテゴリに分類できます [15]。

使用シナリオでは、間接的な方法はオブジェクト テクスチャから特徴点 (キーポイント) を抽出し、連続するフレーム内の記述子を照合することによってそれらを追跡します。特徴抽出およびマッチング段階の計算コストにもかかわらず、これらの方法は正確であり、各フレームの光強度の変化に対して堅牢です。一方、直接法では、ピクセルレベルのデータからカメラの動きを直接推定し、測光誤差を最小限に抑えるように最適化します。写真測量技術に依存するこれらの方法は、すべてのカメラ出力ピクセルを活用し、明るさや色などの制約された側面に従って、連続するフレームで置き換えられるものを追跡します。これらの特徴により、直接法は間接法に比べて画像からより多くの情報をモデル化し、より高精度な3D再構成を実現します。ただし、直接法はテクスチャの少ない環境でより適切に機能し、特徴抽出のためにより多くの計算を必要としませんが、多くの場合、大規模な最適化問題に直面します [16]。それぞれのアプローチの長所と短所を考慮すると、研究者は両方のアプローチを組み合わせてハイブリッド ソリューションの開発を検討することが推奨されます。ハイブリッド手法では、多くの場合、間接的な検出ステージと直接的な検出ステージが組み合わされ、一方が初期化され、もう一方が修正されます。

図 1 標準ビジュアル SLAM パイプライン。使用される直接/間接メソッドに関して、これらのモジュールの一部の機能は変更または省略される場合があります。

また、VSLAM は主にビジュアル オドメトリ (VO) フロントエンド (カメラの軌道を局所的に推定する) と SLAM バックエンド (作成されたマップを最適化する) で構成されるため、各部分で使用されるモジュールの多様性が違いを実現します。 。VO は、ローカル一貫性に基づいてロボットのポーズの初期推定を提供し、最適化のためにバックエンドに送信されます。したがって、VSLAM と VO の主な違いは、マップと予測軌道の大域的な一貫性を考慮するかどうかです。一部の最先端の VSLAM アプリケーションには、ループ閉鎖検出とマッピングという 2 つの追加モジュールも含まれています [15]。これらは、カメラのポーズに基づいてより正確な追跡とマッピングを行うために、以前に訪れた場所を検出する責任を負います。

図 1 は、標準的な VSLAM アプローチの全体的なアーキテクチャを示しています。したがって、システムの入力を慣性測定ユニット (IMU) や LIDAR などの他のセンサー データと統合して、単なる視覚データ以上の情報を提供することもできます。また、VSLAM Pipelineで使用される直接法または間接法に関して、視覚特徴処理モジュールの機能が変更または無視される場合があります。たとえば、Feature Processing ステージでは間接的な方法のみが使用されます。もう 1 つの要因は、実行を向上させるために、ループ クロージャーの検出やバンドル調整などの特定のモジュールを使用することです。

この文書では、45 件の VSLAM 論文を要約し、さまざまな側面に応じてさまざまなカテゴリに分類しています。私たちの研究が、VSLAM 技術の最適化に取り組むロボット研究者の参考になることを願っています。

この記事の残りの部分は次のように構成されています。

セクション II では、VSLAM アルゴリズムの進化について概説します。

セクション III では、VSLAM 分野の他の調査について紹介し、説明します。

セクション IV では、VSLAM の各モジュールを簡単に紹介します。

セクション V では、さまざまなアプリケーションの目標に基づいた VSLAM の分類について説明します。

セクション VI では、この分野における未解決の問題と潜在的な研究傾向について説明します。

02   Visual SLAMの進化

VSLAM システムは過去数年にわたって成熟しており、いくつかのフレームワークがこの開発プロセスで重要な役割を果たしています。全体的な状況を明確に示すために、図 2 に、SLAM サークルの発展に影響を与え、他のフレームワークの標準リファレンスとして使用される、広く使用されている VSLAM 手法を示します。

図 2 影響力の高いビジュアル SLAM 手法

リアルタイム単眼 VSLAM システムを実装するという文献における最初の試みは、2007 年に Davison らによって開発され、Mono-SLAM と呼ばれるフレームワークを導入しました [17]。彼らの間接法のフレームワークは、拡張カルマン フィルター (EKF) アルゴリズム [18] を使用して現実世界のカメラの動きと 3D オブジェクトを推定できます。グローバル最適化およびループ閉鎖検出モジュールが欠如しているにもかかわらず、Mono-SLAM は VSLAM ドメインで主要な役割を果たし始めています。しかし、この方法で再構成された地図にはランドマークのみが含まれており、その地域に関する詳細は示されていませんでした。

Klein ら [14] は、同年に並列追跡およびマッピング (PTAM) を提案し、VSLAM システム全体を追跡とマッピングという 2 つのメイン スレッドに分割しました。このマルチスレッド標準は、この文書で説明するその後の多くの研究によって承認されました。彼らのアプローチの主なアイデアは、計算コストを削減し、並列処理を適用してリアルタイムのパフォーマンスを実現することです。追跡スレッドはカメラの動きをリアルタイムで推定しますが、マッピング スレッドは特徴点の 3D 位置を予測します。PTAM はまた、バンドル調整 (BA) を使用してカメラのポーズを共同最適化し、3D マップを作成した最初の企業でもあります。キーポイントのマッチングと追跡に FAST [19] コーナー検出アルゴリズムを使用します。このアルゴリズムのパフォーマンスは Mono-SLAM よりも優れていますが、その設計は複雑であり、最初の段階でユーザーによる手動設定が必要です。

2011 年に、Newcombe らは、深さの値と運動パラメータを測定してマップを構築する直接的な方法、つまり、Dense Tracking and Mapping (DTAM) を導入しました。DTAM は、高密度マッピングおよびトラッキング モジュールを備えたリアルタイム フレームワークで、フレーム全体を指定された深度マップに合わせて位置合わせすることでカメラのポーズを決定できます。環境マップを構築するために、上記の段階ではシーンの深度と動きのパラメーターを個別に推定します。DTAM はマップの詳細な表現を提供できますが、リアルタイムの実行には高い計算コストが必要です。

3D マッピングとピクセルベースの最適化の分野への別の間接的なアプローチとして、Endres らは 2013 年に RGB-D カメラベースのアプローチを提案しました。彼らのアプローチはリアルタイムで実行され、低コストの組み込みシステムと小型ロボットに焦点を当てていますが、機能のないシナリオや困難なシナリオでは正確な結果を生み出すことができません。同年、Salas Moreno ら [22] は、SLAM++ という名前のリアルタイム SLAM フレームワークで意味情報を活用する最初の試みを提案しました。彼らのシステムは RGB-D センサー出力を受け取り、3D カメラの姿勢推定と追跡を実行して姿勢グラフを形成します。姿勢グラフ内のノードは姿勢推定を表し、測定の不確実性を伴うノード間の相対的な姿勢を表すエッジによって接続されます [23]。次に、シーン内のセマンティック オブジェクトから取得された相対的な 3D ポーズを組み込むことによって、予測されたポーズが改良されます。

VSLAM の基本フレームワークが成熟するにつれて、研究者はこれらのシステムのパフォーマンスと精度の向上に焦点を当てました。これに関して、Forster らは 2014 年に、VSLAM アーキテクチャの一部として、セミダイレクト ビジュアル オドメトリ (SVO) と呼ばれるハイブリッド VO アプローチを提案しました [24]。彼らのアプローチは、センサーベースの動き推定とマッピングタスクのために、特徴ベースの方法と直接的な方法を組み合わせることができます。SVO は単眼カメラおよびステレオ カメラで動作し、再投影エラーを最小限に抑える姿勢調整モジュールを備えています。ただし、SVO の主な欠点は、短期間のデータ関連付けを採用し、ループ閉鎖の検出とグローバルな最適化を実行できないことです。

LSD-SLAM [25] は、2014 年に Engel らによって導入されたもう 1 つの影響力のある VSLAM 手法であり、トラッキング、深度マップ推定、マップ最適化が含まれます。この方法では、グローバル最適化とループ クロージャ検出を備えた姿勢グラフ推定モジュールを使用して、大規模なマップを再構築できます。LSD-SLAM の弱点は、初期化フェーズが難しく、平面内のすべてのポイントが必要なため、計算量が多い方法になることです。

Mur Artal らは、ORB-SLAM [26] と ORB-SLAM 2.0 [27] という 2 つの正確な間接 VSLAM 手法を提案し、これまで多くの研究者の注目を集めてきました。これらの方法では、適切にテクスチャ化されたシーケンスで位置特定とマッピングを実行し、Oriented FAST および Rotated BRIEF (ORB) 機能を使用して高性能の姿勢検出を実行できます。ORB-SLAM の最初のバージョンでは、カメラの位置から収集されたキーフレームを使用して、カメラの位置と環境構造を計算できました。2 番目のバージョンは、機能の対応関係を見つけるためのトラッキング、マップ管理操作のためのローカル マッピング、新しいループを検出してドリフト エラーを修正するためのループ クロージャを含む 3 つの並列スレッドを備えた ORB-SLAM の拡張です。ORB-SLAM 2.0 は単眼カメラやステレオ カメラのセットアップで使用できますが、再構築された地図データの縮尺が不明なため、自律ナビゲーションに直接使用することはできません。この方法のもう 1 つの欠点は、テクスチャのない領域や繰り返しパターンがある環境では機能しないことです。ORB-SLAM 3.0 と呼ばれるこのフレームワークの最新バージョンは、2021 年に提案されました [28]。単眼、RGB-D、ステレオ ビジョンなどのさまざまなカメラ タイプで動作し、姿勢推定出力が向上します。

近年、さまざまな分野でディープラーニングの影響が目覚ましく、ディープニューラルネットワークに基づく手法は、より高い認識率と照合率を提供することで多くの問題を解決できるようになりました。同様に、手作業で作成された特徴を VSLAM の学習された特徴に置き換えることは、最近の多くの深層学習ベースの手法で提案されているソリューションの 1 つです。

これに関して、Tateno らは、カメラの姿勢推定のために入力フレームを処理し、深さ推定のためにキーフレームを使用する、CNN-SLAM と呼ばれる畳み込みニューラル ネットワーク (CNN) ベースのアプローチを提案しました [29]。環境をより深く理解するためにカメラ フレームをより小さな部分に分割することは、並列処理とリアルタイム パフォーマンスを提供する CNN-SLAM のアイデアの 1 つです。

別のアプローチとして、Engel らは、直接法とスパース再構成を組み合わせて最高強度点を抽出する、ダイレクト スパース オドメトリ (DSO) [30] と呼ばれる直接 VSLAM アルゴリズムの新しいトレンドも導入しました。画像形成パラメータを考慮し、まばらなピクセルのセットを追跡することによる間接的な追跡方法を使用します。DSO はカメラを測光的に校正する場合にのみ完全な精度を得ることができ、従来のカメラでは高精度の結果を得ることができないことに注意してください。

要約すると、VSLAM システムの進化の過程で、最近のアプローチは複数の特殊なモジュールの並列処理に焦点を当ててきました。これらのモジュールは、さまざまなセンサーや環境と互換性のある共通のテクノロジーとフレームワークを形成します。上記のプロパティにより、リアルタイムでの実行が可能になり、パフォーマンス向上の点でより柔軟になります。

03  関連概要

VSLAM の分野には、さまざまな既存手法の包括的な分析を提供するさまざまなレビュー論文があります。各論文では、VSLAM アプローチを採用する主な利点と欠点を検討します。

Macario Barros et al. [31] は、視覚 SLAM スキームを純粋視覚 (単眼)、視覚慣性 (立体視)、および RGB-D の 3 つの異なるカテゴリに分類しています。彼らはまた、VSLAM の分析を簡素化するためのさまざまな基準を提案しました。ただし、イベントベースのセンサーなどの他の視覚センサーは含まれていません。これについては、第 4 章のセクション 1 で後述します。

Chen ら [32] は、大量の伝統的および意味論的な VSLAM 文献を照合しました。彼らは、SLAM 開発時代をクラシック、アルゴリズム分析、ロバスト認識の各段階に分けて、当時のホットイシューを紹介しました。また、直接/間接的なアプローチによる古典的なフレームワークを要約し、セマンティック セグメンテーションにおける深層学習アルゴリズムの影響を調査します。彼らの研究は、この分野の高次ソリューションの包括的な説明を提供していますが、メソッドの分類は、機能ベースの VSLAM で使用される機能のタイプに限定されています。

Jia et al. [33] は、多数の論文を調査し、グラフ最適化に基づく方法と深層学習を使用する方法を単純に比較しました。しかし、適切な比較にもかかわらず、調査された論文の数が限られているため、その結論を適切に一般化することはできません。

別の研究では、Abaspur Kazerouni et al. [34] はさまざまな VSLAM 手法を取り上げ、感覚デバイス、データセット、モジュールを活用し、比較と分析のためのいくつかの間接的な手法をシミュレートしました。ただし、HOG、スケール不変特徴変換 (SIFT)、Speed Up Robust features (SURF)、深層学習ベースのソリューションなどの特徴ベースのアルゴリズムのみを扱います。Bavle et al. [35] は、さまざまな SLAM および VSLAM アプリケーションにおける姿勢認識の側面を分析し、その欠点について議論しています。彼らは、セマンティック シーンが欠落している特徴を操作することで、現在の研究作業の結果を改善できると結論付けることができます。

他の調査では、特定のトピックや傾向について最先端の VSLAM 手法が研究されています。たとえば、Duan ら [15] は、輸送ロボット用のビジュアル SLAM システムにおける深層学習の進歩を研究しました。この論文の中で、著者らは、VO およびループ閉塞検出タスクでさまざまな深層学習ベースの手法を使用することの長所と短所を要約しています。VSLAM で深層学習手法を使用する大きな利点は、姿勢推定と全体的なパフォーマンスの計算における正確な特徴抽出です。

同じ分野の別の研究で、Arshad と Kim [36] は、視覚データを使用したループ閉塞検出における深層学習アルゴリズムの影響に焦点を当てました。彼らはさまざまな VSLAM 論文をレビューし、さまざまな条件下でのロボットの長期的な自律性を分析しました。

Singandhupe と La [37] は、無人車両に対する VO と VSLAM の影響を要約しました。彼らは、KITTI データセットで評価された手法を照合し、各システムの長所と短所を簡単に説明できるようにしました。

同様の記事で、Cheng et al. [32] は、VSLAM ベースの自動運転システムをレビューし、そのようなシステムの将来の開発傾向を提案しました。

他の何人かの研究者は、現実世界の条件下で VSLAM が機能する能力を調査しました。たとえば、Saputra et al. [38] は、動的で過酷な環境で動作する VSLAM 技術のバリエーションについて、スレッドの再構築、分割、追跡、および並列実行について議論しています。

このレビューは、さまざまな現場での VSLAM の包括的な分析を提供するという点で、これまでの他のレビューとは異なります。他の VSLAM 調査と比較した場合、このペーパーの主な貢献は次のとおりです。

  • 新しいソリューションを提案する研究者の主な貢献、基準、目標に従って、VSLAM のさまざまな最近の出版物を分類します。

  • さまざまな側面でさまざまなアプローチを掘り下げて、VSLAM の現在の傾向を分析します。

  • VSLAM の潜在的な問題の紹介

04  ビジュアルSLAMの各モジュール

さまざまなビジュアル SLAM メソッドを組み合わせて、さまざまな段階の要件を次のモジュールに分割します。

4.1 センサーとデータ取得

Davison ら [17] によって導入された VSLAM アルゴリズムの初期の実装には、軌道回復用の単眼カメラが装備されていました。単眼カメラは、物体検出や追跡などのさまざまなタスクに使用される最も一般的な視覚センサーでもあります [39]。一方、ステレオ カメラには 2 つ以上のイメージ センサーが含まれており、キャプチャされたイメージ内の深度情報を認識できるため、VSLAM アプリケーションのパフォーマンスが向上します。これらのカメラ構成は、より高い精度の要件に対応する情報認識を提供するのに価値があります。RGB-D カメラは、VSLAM で使用されるビジョン センサーの別のバリエーションで、シーン内の深度と色の情報を提供できます。適切な照明と動作速度があれば、前述のビジョン センサーは直感的な環境で環境に関する豊富な情報を提供できますが、照明条件が悪い場合やダイナミック レンジが大きいシーンでは苦労することがよくあります。

近年、イベント カメラはさまざまな VSLAM アプリケーションでも使用されています。動きが検出されると、これらの低遅延の生物由来のビジョン センサーは、標準の強度フレームではなくピクセル レベルの明るさの変化を生成することができ、モーション ブラー効果のない高ダイナミック レンジ出力を可能にします [40]。標準のカメラと比較して、イベントベースのセンサーは、高速の動きや大規模な動的なシーンでは正確な視覚情報を提供できますが、動きの速度が低い場合は十分な情報を提供できません。イベント カメラは、厳しい照明やダイナミック レンジの条件下では標準のビジョン センサーよりも優れたパフォーマンスを発揮できますが、主に環境に関する非同期情報を提供します。これにより、従来の視覚アルゴリズムはこれらのセンサーの出力を処理できなくなります [41]。さらに、イベントの時空間ウィンドウを他のセンサーから取得したデータとともに使用すると、豊富な姿勢推定と追跡情報を提供できます。

さらに、一部の方法では、マルチカメラ構成を使用して、実際の環境で作業する際の一般的な問題を解決し、位置特定の精度を向上させます。複数のビジョン センサーを利用すると、オクルージョン、カモフラージュ、センサーの故障、まばらな追跡可能なテクスチャなどの複雑な問題の解決に役立ち、カメラに重複する視野を提供できます。マルチカメラ構成ではデータ取得の問題の一部を解決できますが、カメラのみの VSLAM では、高速で移動するオブジェクトに遭遇したときのモーション ブラー、暗いまたは明るい場所での特徴の不一致、高速で変化するシーンなど、さまざまな問題に直面する可能性があります。省略など したがって、一部の VSLAM アプリケーションには、カメラの隣に複数のセンサーが装備されている場合があります。イベントと標準フレーム [42] を融合したり、LiDAR [43] や IMU などの他のセンサーを VSLAM に統合したりすることは、いくつかの既存のソリューションです。

4.2 応用シナリオ

多くの従来の VSLAM 実践における強い前提は、ロボットは予期せぬ変化のない比較的静的な世界で動作するということです。したがって、多くのシステムは特定の環境にうまく適用できますが、環境における予期せぬ変化(移動物体の存在など)によってシステムが複雑になり、状態推定の品質が大幅に低下する可能性があります。動的環境で動作するシステムは通常、オプティカル フローやランダム サンプリング コンセンサス (RANSAC) [44] などのアルゴリズムを使用して、シーン内の動きを検出し、移動するオブジェクトを外れ値として分類し、スキップします。このようなシステムは、位置特定スキームを改善するために、幾何学的情報、意味論的情報、またはその両方の組み合わせを活用します[45]。

さらに、環境は大まかな分類として屋内と屋外に分けることができます。屋外環境には、構造的なランドマークや大規模な動きの変化 (建物や道路のテクスチャなど) がある都市部、または動きの弱い状態 (動く雲や植生、砂のテクスチャなど) があるオフロード エリアなどがあります。位置特定とループ検出のリスク。一方、屋内環境には、廊下、壁、部屋など、まったく異なるグローバル空間特性を持つシーンが含まれています。VSLAM システムは、前述のいずれかの地域では適切に動作するかもしれませんが、他の環境では同じパフォーマンスを発揮できない可能性があることが想像できます。

4.3 視覚的特徴の処理

第 1 章で述べたように、視覚的特徴を検出し、姿勢推定のために特徴記述子情報を利用することは、間接 VSLAM 手法の避けられない段階です。これらの方法では、さまざまな特徴抽出アルゴリズムを使用して、環境をより深く理解し、連続するフレーム内の特徴点を追跡します。特徴抽出段階には、SIFT[46]、SURF[47]、FAST[19]、BRIEF[48]、ORB[49]などを含む多くのアルゴリズムがあります。その中でも、ORB 機能は、SIFT や SURF [50] と比較して、精度をあまり損なうことなく、高速に抽出およびマッチングできるという利点があります。

上記の方法の一部の問題は、さまざまな複雑で予期しない状況に効果的に適応できないことです。したがって、多くの研究者は CNN を使用して、VO、姿勢推定、ループ クロージャ検出などのさまざまな段階で画像の深い特徴を抽出しています。これらのメソッドの設計機能に応じて、これらの手法は教師ありフレームワークまたは教師なしフレームワークを表すことができます。

4.4 プログラムの評価

一部の VSLAM 手法、特に動的で困難な環境で動作できる手法は、現実世界の条件下でロボットでテストされていますが、多くの研究作業では、その適用性を実証するために公開されているデータセットが使用されています。

Bonarini らの RAWSEEDS データセット [51] は、屋内、屋外、および混合ロボットの軌道とグラウンド トゥルース データを含む、よく知られたマルチセンサー標準テスト ツールです。これは、ロボット工学および SLAM 目的で一般に公開された最初の標準テスト ツールの 1 つです。

McCormac et al. [52] による Scenenet RGB-D は、セマンティック セグメンテーションやオブジェクト検出などのシーン理解問題用のもう 1 つの人気のあるデータセットであり、500 万の大規模なレンダリングされた RGB-D 画像が含まれています。このデータセットには、ピクセル完全なグラウンド トゥルース ラベルと正確なカメラのポーズと深度データも含まれており、VSLAM アプリケーションの強力なツールになります。

VSLAM および VO の分野における最近の研究の多くは、TUM RGB-D データセットでその方法をテストしています [53]。前述のデータセットとベンチマーク テスト ハーネスには、Microsoft Kinect センサーによってキャプチャされた色と深度の画像と、それに対応するグラウンド トゥルース センサー トラックが含まれています。

あるいは、Nguyen らによる NTU VIRAL [54] は、3D LIDAR、カメラ、IMU、および複数の超広帯域 (UWB) を備えたドローンによって収集されたデータセットです。このデータセットには屋内と屋外のインスタンスが含まれており、自動運転と空中操作のパフォーマンスを評価するように設計されています。

さらに、Burri et al. による EuRoC MAV [55] は、同期された IMU 測定およびモーション グランド トゥルース データとともにステレオ カメラによってキャプチャされた画像を含む、もう 1 つの人気のあるデータセットです。EuRoC MAV で収集されたデータは、環境条件に応じて、簡単、中程度、難しいの 3 つのカテゴリに分類されます。

Shi らによる OpenLORIS Scene [56] は、VSLAM 作業用に公開されているもう 1 つのデータセットで、さまざまなセンサーを備えた車輪付きロボットによって収集された大量のデータが含まれています。単眼アルゴリズムおよび RGB-D アルゴリズムに適切なデータと、ホイール エンコーダからのオドメトリ データを提供します。

VSLAM で使用されるより一般的なデータセットとして、KITTI [57] は、移動車両上の 2 台の高解像度 RGB およびグレースケール カメラによってキャプチャされたデータセットです。KITTI は GPS とレーザー センサーを使用して正確な地上情報を提供し、モバイル ロボット工学や自動運転において非常に人気のあるデータセットとなっています。

TartanAir [58] は、複雑なシーンで SLAM アルゴリズムを評価するためのもう 1 つの標準データセットです。

さらに、インペリアル カレッジ ロンドンおよびアイルランド国立大学メイヌース校 (ICL-NUIM) [59] データセットは、ハンドヘルド RGB-D カメラ シーケンスを含む別の VO データセットであり、多くの SLAM のベンチマークに使用されています。

以前のデータセットとは異なり、他の一部のデータセットには、通常のカメラではなく特定のカメラで取得されたデータが含まれています。たとえば、Mueggler ら [60] によって紹介された Event Camera データセットは、高速ロボット評価のためにイベントベースのカメラから収集されたサンプルを使用したデータセットです。データセット インスタンスには慣性測定値とモーション キャプチャ システムによってキャプチャされた強度画像が含まれており、イベント カメラを備えた VSLAM に適したベンチマークになります。

上記のデータセットは、センサーのセットアップ、アプリケーション、ターゲット環境に応じて、さまざまな VSLAM メソッドで使用されます。これらのデータセットには主にカメラ キャリブレーション パラメーターとグラウンド トゥルース データが含まれています。表 1 と図 3 に、それぞれデータセットの概要と各データセットの例を示します。

表 1 VSLAM で一般的に使用されるデータ セット; 表内の GT は、真の値の利用可能性を指します。
図 3 さまざまな論文で評価に使用される、主流のビジュアル SLAM データセットの例。これらのデータセットの特徴を表 1 に示します。

4.5 セマンティック層

ロボットが周囲の状況を理解し、より有利な決定を下すには意味論的な情報が必要です。最近の VSLAM 作品の多くでは、ジオメトリベースのデータにセマンティック情報を追加する方が、純粋にジオメトリベースのアプローチよりも優れており、周囲の環境に関するより多くの情報を提供できるようになります [61]。これに関して、事前トレーニングされたオブジェクト認識モジュールは、VSLAM モデルに意味情報を追加できます [62]。最新のアプローチの 1 つは、VSLAM アプリケーションで CNN を使用することです。一般に、セマンティック VSLAM メソッドは、次の 4 つの主要コンポーネントで構成されます [43]。

トラッキング:連続したビデオ フレームから抽出された 2D 特徴点を使用して、カメラの姿勢を推定し、3D マップの点群を構築します。カメラの姿勢の計算と 3D マップの点群の構築により、それぞれ位置特定とマッピングのプロセスのための参照データが確立されます。

ローカル マッピング: 2 つの連続するビデオ フレームを処理することによって、新しい 3D マッピング ポイントが作成され、BA モジュールと一緒に使用されてカメラのポーズが最適化されます。

ループ クロージャ検出:キーフレームと抽出された視覚的特徴を比較し、それらの間の類似性を評価することで、カメラのポーズを調整し、構築されたマップを最適化します。

非剛体コンテキスト カリング (NRCC): NRCC を使用する主な目的は、ビデオ フレームから時間オブジェクトをフィルタリングして、ローカリゼーションおよびマッピングの段階での悪影響を軽減することです。これは主に、人物などフレーム内のさまざまな不安定なインスタンスを分離するためのマスキング/セグメンテーション プロセスで構成されます。NRCCは処理する特徴点の数を削減できるため、計算部分が簡略化され、より堅牢な性能が得られます。

したがって、VSLAM メソッドでセマンティック レイヤーを活用すると、姿勢推定とマップ構築の不確実性を最適化できます。しかし、計算コストに大きな影響を与えることなく、抽出された意味情報を正しく使用することが現在の課題となっています。

05  アプリケーションの目標に基づいた VSLAM メソッドの分類

優れた結果を達成でき、安定したアーキテクチャを持つ VSLAM 手法を正確に見つけるために、Google Scholar と有名なコンピュータ サイエンス書誌データベース Scopus および DBLP から、近年トップ Web サイトで公開された引用率の高い出版物を収集し、スクリーニングしました。また、上記の出版物で言及されている論文を研究し、VSLAM の分野に最も関連性の高い論文を選択しました。論文を調査した後、主に扱っている特定の問題に従って、収集した論文を次のように分類できます。

5.1 目標 1: マルチセンサー処理

このカテゴリでは、環境をより深く理解するためにさまざまなセンサーを使用する VSLAM 手法を取り上げます。単純にカメラをセンサーとして使用するテクノロジーもあれば、さまざまなセンサーを組み合わせてアルゴリズムの精度を向上させるテクノロジーもあります。

1) 複数のカメラの使用:

1 台のカメラで移動物体の 3D 軌跡を再構成することは難しいため、複数のカメラを使用することを提案する研究者もいます。たとえば、CoSLAM 4 は、Zou と Tan [63] によって導入された VSLAM システムで、さまざまなプラットフォームに展開された個別のカメラを使用して堅牢なマップを再構築します。彼らのシステムは、動的環境内で独立して移動する複数のカメラを統合し、重なり合う視野から地図を再構成します。このプロセスでは、カメラ内およびカメラ間の姿勢推定とマッピングを統合することで、3D での動的点群の再構築が容易になります。CoSLAM は、KanadeLucas-Tomasi (KLT) アルゴリズムを使用して視覚的特徴を追跡し、相対的な位置と方向が時間の経過とともに変化する屋内/屋外の静的および動的環境で動作します。このアプローチの主な欠点は、多数のカメラから出力されたデータを解析するために複雑なハードウェアが必要であり、カメラの追加により計算コストが増加することです。

困難な野外シナリオのために、Yang et al. [64] はマルチカメラの協調パノラマ VSLAM 手法を開発しました。彼らのアプローチでは、オクルージョンやテクスチャがまばらな環境などの困難な条件下で VSLAM システムのパフォーマンスを向上させるために、各カメラが独立している必要があります。一致する範囲を決定するために、カメラの重複する視野から ORB 特徴を抽出します。さらに、CNN ベースのディープ ラーニング技術を採用して、ループ クロージャ検出用の同様の特徴を特定しました。実験では、著者らはパノラマ カメラと統合ナビゲーション システムによって生成されたデータセットを使用しました。

MultiCol SLAM は、Urban と Hinz による、マルチカメラ構成を使用する別のオープンソース VSLAM フレームワークです [65]。以前に作成したモデル MultiCol を使用して、複数の魚眼カメラをサポートするキーフレームベースのプロセスで ORB-SLAM を強化しました。画像をキーフレームに変換する画像を収集するマルチキーフレーム (MKF) 処理モジュールを ORB-SLAM に追加しました。著者はまた、ループクロージャがMKFから検出されるマルチカメラループクロージャのアイデアを提案しています。彼らのメソッドはリアルタイムで実行されますが、複数のスレッドを同時に実行する必要があるため、多くの計算能力が必要になります。

2) 複数のセンサーを使用する(複数のセンサーを使用する)

他のいくつかのアプローチでは、パフォーマンスを向上させるために、複数のセンサーを融合し、ビジョンベースと慣性ベースのセンサー出力を使用することを推奨しています。この点に関して、Zhu et al. [66] は、CamVox 5 という名前の低コストの間接 LIDAR 支援 VSLAM を提案し、その信頼性の高い性能と精度を実証しました。彼らのアプローチでは ORB-SLAM 2.0 を使用し、高度な深度センサーとして Livox LIDAR と RGB-D カメラの出力を組み合わせています。著者らは、IMU を使用して、非反復スキャン位置を同期および補正しました。彼らの貢献は、制御されていない環境で動作する自律的な LIDAR カメラのキャリブレーション方法です。ロボット プラットフォームでの実際のテストでは、CamVox が環境を処理しながらリアルタイムで動作することが示されました。

著者らは、[67] で、カメラ、LiDAR、IMU、および UWB を結合する VIRAL (Visual Inertial Ranging LiDAR) SLAM と呼ばれるマルチモーダル システムを提案しました。彼らはまた、LIDAR 点群から構築されたローカル マップに基づく視覚的特徴マップ マッチング周辺化スキームも提案しました。視覚コンポーネントは、BRIEF アルゴリズムを使用して抽出および追跡されます。このフレームワークには、使用されるセンサーの同期スキームとトリガーも含まれています。彼らは、シミュレートされた環境と、カメラ、LiDAR、IMU、および UWB センサーによってキャプチャされたデータを含む NTU VIRAL [54] と呼ばれる生成されたデータセットでメソッドをテストしました。ただし、彼らの方法は、同期、マルチスレッド、センサーの競合に対処するため、計算コストが高くなります。

Vidal ら [42] は、高速設定で信頼性の高い姿勢推定を行うために、イベント カメラ、カメラ フレーム、および IMU を並列構成で統合することを提案しています。彼らの Ultimate SLAM 6 システムは、イベント カメラと、[68] で導入されたキーフレームベースの非線形最適化スレッドに基づいています。これらは、特徴の検出と追跡に、それぞれ FAST コーナー検出器と LucasKanade 追跡アルゴリズムを使用します。Ultimate SLAM は、高速アクティビティに伴うモーション ブラーの問題を回避し、照明条件が変化する動的な環境でも動作します。「イベント カメラ データセット」に対するこの手法の効率は、純粋なイベント カメラや通常のカメラの他の構成と比較すると明らかです。また、著者らは、イベント カメラを備えた自律型クワッドローター ドローンで Ultimate SLAM をテストし、従来の VO プラットフォームでは処理できない飛行条件をシステムがどのように処理するかを実証しました。Ultimate SLAM が直面する主な問題は、イベントと標準フレーム出力の同期です。

Nguyen et al. [69] は、単眼カメラと UWB 距離センサーを密結合した VSLAM アプローチを提案しました。彼らは、フィーチャベース (可視) ランドマークとフィーチャレス (UWB) ランドマークを組み合わせてマップを作成します。これは、混雑した環境で UWB がマルチパスの影響を受ける場合に効果的に機能します。彼らは ORB-SLAM に基づいて間接的な方法を構築し、姿勢推定に ORB の機能を使用しました。彼らは、手持ち式手段を使用した空中ロボットによるデータ収集をシミュレートするデータセットでシステムをテストしました。この場合、カメラと UWB センサーの同期は大きな困難ですが、新しい画像ごとにタイムスタンプが関連付けられた新しいカメラのポーズを使用することで、この問題は克服されました。

5.2 目標 2: 姿勢推定

このタイプの方法は、さまざまなアルゴリズムを使用して VSLAM の姿勢推定を最適化する方法に焦点を当てています。

1) 線/点データの使用:

この点に関して、Zhou et al. [70] は、カメラの姿勢を決定するための有用な特徴として建物の構造線を使用することを提案しています。構造線は主要な方向に関連付けられており、全体的な方向情報をエンコードして、予測される軌道を改善します。前述の StructSLAM は、低機能および機能のない条件下でも動作できる 6 自由度 (DoF) VSLAM テクノロジです。EKF を使用して、シーン内の現在の方向に基づいて変数を推定します。評価には、RAWSEEDS 2009 の屋内シーン データセットと生成されたシーケンス画像データセットのセットが使用されます。

Point and Line SLAM (PL-SLAM) は、Pumarola ら [71] によって提案された ORB-SLAM ベースの VSLAM システムであり、非動的シーンや低テクスチャ シーン向けに最適化されています。このシステムは、線と点の特徴を同時に融合して姿勢推定を改善し、より少ない特徴点での動作を支援します。著者らは、生成されたデータセットと TUM RGB-D で PL-SLAM をテストしました。このアプローチの欠点は、精度を高めるために平面などの他の幾何学的要素が使用されるのに対し、計算コストが高いことです。

Gomez-Ojeda et al. [72] は、目に見えない地図を再構築するためにステレオ ビジョン カメラからの点と線を使用する間接的な VSLAM 技術である PL-SLAM (Pumarola et al. [71] の同名のフレームワークとは異なります) を導入しました。すべての VSLAM モジュールの点と線から取得したセグメントを、メソッド内の連続フレームから取得した視覚情報とマージします。点と線は、ORB および Line Detector (LSD) アルゴリズムを使用して、PL-SLAM の後続のステレオ フレームで取得および追跡されます。著者らは EuRoC および KITTI データセットで PL-SLAM をテストしました。これは、パフォーマンスの点で ORB-SLAM 2.0 のステレオ バージョンを上回る可能性があります。PL-SLAM の主な欠点の 1 つは、特徴追跡モジュールに必要な計算時間です。より多くの環境情報を抽出するには、ほぼすべての構造線をカバーする必要があります。

Lim et al. [73] は、単一目的のポイントラインベースの VSLAM の劣化回避技術を導入しました。ライン特徴を抽出し、各フレーム内の短いラインをフィルタリングして除去し、以前に識別されたライン特徴を照合するための強力なオプティカル フロー ベースのライン トラッキング モジュールも、彼らの手法の貢献です。彼らの技術の有効性を実証し、確立されたポイントベースの手法よりも優れていることを実証するために、彼らは EuRoC MAV データセットでシステムをテストしました。多数の発見にもかかわらず、このシステムには正しい最適化パラメータを特定するための適応的な方法が欠けています。

2) 他の特性を使用します。

文献[74]中提出了一种用于立体视觉相机的框架:双四元数视觉SLAM(DQV-SLAM),该框架使用贝叶斯框架进行6-DoF姿态估计。为了防止非线性空间转换组的线性化,他们的方法使用渐进贝叶斯更新。对于地图和光流的点云,DQVSLAM使用ORB功能在动态环境中实现可靠的数据关联。在KITTI和EuRoC数据集上,该方法可以可靠地估计实验结果。然而,它缺乏姿态随机建模的概率解释,并且对基于采样近似的滤波的计算要求很高。

等人[75]开发了一种使用artificial squared planar markers来重建大规模室内环境地图的技术。如果每个视频帧中至少有两个标记是可以观察到的,他们的实时SPM-SLAM系统就可以使用标记解决姿态估计的歧义问题。他们创建了一个数据集,其中包含了放置在由一扇门链接的两个房间中的标记的视频序列。尽管SPM-SLAM具有很好的价值,但它仅在多个平面标记散布在该区域周围且至少有两个标记可用于标记连接识别时有效。此外,他们的框架处理场景中动态变化的能力并未进行判断。

3)深度学习方法

Bruno和Colombini[76]提出了LIFT-SLAM,它将基于深度学习的特征描述子与传统的基于几何的系统相结合。他们扩展了ORB-SLAM系统的Pipeline,并使用CNN从图像中提取特征,使用学习到的特征提供更稠密和准确的匹配。为了检测、描述和方向估计,LIFT-SLAM微调LIFT深度神经网络。使用KITTI和EuRoC MAV数据集的室内和室外实例进行的研究表明,LIFT-SLAM在精度方面优于传统的基于特征和基于深度学习的VSLAM方案。但是,该方法的缺点是其计算密集的线程和未优化的CNN设计,当然,这也打造了其近乎实时的性能。

Naveed et al. [77] は、非常に複雑な問題に対しても信頼性と一貫性のあるモジュールを備えた深層学習ベースの VSLAM スキームを提案しました。彼らの手法はいくつかの VSLAM よりも優れており、実際のシミュレーターで訓練された深層強化学習ネットワークを使用します。さらに、これらはアクティブな VSLAM 評価のベースラインを提供し、実際の屋内および屋外環境で適切に一般化できます。ネットワーク パス プランナーは、その基礎となるシステム ORB-SLAM によって受信される理想的なパス データを提供します。彼らは、評価のために、困難な環境とテクスチャフリーの環境の両方における現実世界のナビゲーションの問題を含むデータセットを作成しました。

RWT-SLAM は、弱いテクスチャ状況のために [78] で著者によって提案された深い特徴マッチングに基づく VSLAM フレームワークです。彼らのアプローチは ORB-SLAM に基づいており、ローカル画像特徴マッチングに強化された LoFTR [79] アルゴリズムの特徴マスクを使用します。シーン内の粗いレベルの記述子と細かいレベルの記述子は、それぞれ CNN アーキテクチャと LoFTR アルゴリズムを使用して抽出されます。RWT-SLAM は、TUM RGB-D および OpenLORIS シーン データセット、および作成者によって収集された現実世界のデータセットでテストされています。ただし、結果とパフォーマンスに一致する堅牢な機能にもかかわらず、システムは依然として計算負荷が高くなります。

5.3 目標 3: 現実世界での実現可能性

このようなメソッドの主な目的は、さまざまな環境で使用され、複数のシナリオで機能することです。先ほど述べた方法はすべて、環境のセマンティック情報を高度に統合し、エンドツーエンドの VSLAM を提供することに注意してください。

1) 動的な環境

この点に関して、Yu et al. [61] は、動的環境で使用でき、マップ構築のためのセマンティック情報を提供する DS-SLAM という名前の VSLAM システムを導入しました。このシステムは ORB-SLAM 2.0 に基づいており、トラッキング、セマンティック セグメンテーション、ローカル マッピング、ループ クロージング、および高密度セマンティック マップ構築という 5 つのスレッドが含まれています。動的アイテムを除外し、姿勢推定プロセスの前に位置特定精度を向上させるために、DS-SLAM はリアルタイム セマンティック セグメンテーション ネットワーク SegNet を使用したオプティカル フロー アルゴリズム [80] を採用しています。DS-SLAM は、実際の環境、RGB-D カメラ、および TUM RGB-D データセットでテストされています。ただし、位置特定の精度が高いにもかかわらず、セマンティック セグメンテーションの制限と大量の計算の特性に依然として直面しています。

セマンティック オプティカル フロー SLAM (SOF-SLAM) は、ORBSLAM 2.0 の RGB-D モードに基づく間接 VSLAM システムであり、Cui と Ma によって提案された高動的環境のための別の方法です [45]。彼らの方法では、ORB 特徴抽出によって提供されるセマンティックおよび幾何学的情報に隠された動的特徴を抽出してスキップするセマンティック オプティカル フロー動的特徴検出モジュールを使用します。正確なカメラの姿勢と環境情報を提供するために、SOF-SLAM は SegNet のピクセルレベルのセマンティック セグメンテーション モジュールを使用します。非常に動的な状況では、TUM RGB-D データセットと実際の環境での実験結果は、SOF-SLAM が ORB-SLAM 2.0 よりも優れていることを示しています。ただし、非静的特徴認識の非効果的な方法と、連続する 2 つのフレームのみに依存する方法が SOF-SLAM の弱点です。

Cheng et al. [81] は、オプティカル フロー手法を使用して動的特徴点を分離および削除する動的環境用の VSLAM システムを提案しました。これらは ORB-SLAM の構造を利用し、正確な姿勢推定のために典型的な単眼カメラの出力から生成された固定特徴点を ORB-SLAM に提供します。特徴がない場合、システムはオプティカル フロー値を分類し、それらを特徴認識に使用することで機能します。TUM RGB-D データセットの実験結果によると、このシステムは動的な屋内環境でも良好に動作します。

Yang et al. [82] は、意味的にセグメント化されたネットワーク データ、動きの一貫性検出技術、および幾何学的制約を使用して環境マップを再構築する別の VSLAM スキームを公開しました。彼らの手法は、ORB-SLAM 2.0 の RGB-D バリアントに基づいており、動的環境や屋内環境でも良好に機能します。改良された ORB フィーチャ抽出技術を使用して、動的フィーチャを無視して、安定したフィーチャのみをシーン内に保持します。次に、特徴データとセマンティック データが結合されて、静的セマンティック マップが作成されます。Oxford および TUM RGB-D データセットの評価結果は、位置特定精度の向上と大量のデータを使用したセマンティック マップの作成におけるこの方法の有効性を示しています。ただし、廊下や情報が少ない場所ではシステムに問題が発生する可能性があります。

2) ディープラーニングを活用したソリューション

Li らによる DXSLAM と呼ばれる別の研究 [83] では、深層学習を使用して SuperPoint に類似したキーポイントを見つけ、画像の汎用記述子とキーポイントを生成します。彼らは、各フレームからローカルおよびグローバル情報を抽出し、フレームベースおよびキーポイントベースの記述情報を生成するように、より強力な CNN HF-NET をトレーニングしました。また、オフライン バッグ オブ ワード (BoW) メソッドを使用してローカル特徴のビジュアル ディクショナリ (ビジュアル ボキャブラリ) をトレーニングし、正確なループ クロージャーの検出を実現します。DXSLAM は、グラフィックス処理装置 (GPU) を使用せずにリアルタイムで実行でき、CPU と互換性があります。特に強調されていませんが、動的な環境における動的な変化に強い耐性を持っています。DXSLAM は、TUM RGB-D および OpenLORIS シーン データセット、屋内および屋外の画像でテストされており、ORBSLAM 2.0 および DS-SLAM よりも正確な結果を取得できます。ただし、このアプローチの主な欠点は、特徴抽出アーキテクチャが複雑であることと、深い機能を古い SLAM フレームワークとマージする際の問題です。

Li et al. [84] は、複雑な状況における深層学習に基づいて特徴点を抽出するためのリアルタイム VSLAM 技術を開発しました。このメソッドは、GPU 上で実行でき、3D 密マップの作成をサポートする特徴抽出用の自己教師型マルチタスク CNN です。CNN の出力は、固定長 256 のバイナリ コード文字列であるため、ORB などの従来の特徴点検出器で置き換えることができます。これには、動的シーンで正確かつタイムリーなパフォーマンスを実現する 3 つのスレッド (トラッキング、ローカル マッピング、ループ クロージャ検出) が含まれています。このスキームは、単眼カメラと RGB-D カメラをベースラインとして使用する ORB-SLAM 2.0 をサポートします。著者らは、TUM データセットと、自分たちで収集した 2 つのデータセット (Kinect カメラで収集した廊下とオフィスのデータセット) でテストしました。

Steenbeek と Nex は、[85] で、正確なシーン分析とマップ再構成に CNN を使用するリアルタイム VSLAM 技術を導入しました。彼らのソリューションは、安定したパフォーマンスのために深度推定ニューラル ネットワークを採用し、飛行中のドローンの単眼カメラ ストリームを利用します。上記の手法は ORB-SLAM 2.0 に基づいており、屋内環境から収集された視覚情報を利用します。さらに、CNN は 48,000 を超える屋内ケースでトレーニングされ、姿勢、空間深度、RGB 入力を操作してスケールと深度を推定します。TUM RGB-D データセットを使用したシステムの評価とドローンによる実世界テストにより、姿勢推定の精度が向上していることが実証されました。ただし、テクスチャがないとシステムは困難になり、リアルタイム パフォーマンスには CPU と GPU の両方のリソースが必要になります。

3) 人工ランドマークの使用

と Medina Carnicer は、自然と人工のランドマークを組み合わせ、基準マーカーを使用して周囲環境のスケールを自動的に計算することで、従来の VSLAM システムを上回る UcoSLAM11] と呼ばれる技術を開発しました。UcoSLAM の主な目的は、自然ランドマークの不安定性、再現性、追跡品質の低さを解決することです。キーのみ、フラグのみ、または混合モードで実行できるため、機能フラグのない環境でも実行できます。マップの対応関係を見つけ出し、再投影誤差を最適化し、追跡が失敗した場合に再配置するために、UcoSLAM は追跡モードを設定します。さらに、ORB や FAST などの任意の記述子を使用して特徴付けることができるマーカーベースのループ閉鎖検出システムを備えています。UcoSLAM には多くの利点がありますが、システムは多くのスレッドを実行するため、時間のかかる方法になります。

4) 幅広いセットアップ

動的な屋内および屋外環境向けのもう 1 つの VSLAM 戦略は DMS-SLAM [87] であり、単眼、ステレオ、および RGB-D ビジョン センサーをサポートします。このシステムは、スライディング ウィンドウとグリッドベースの動作統計 (GMS) [88] の特徴マッチング方法を採用して、静的な特徴の位置を見つけます。ORB-SLAM 2.0 システムに基づいた DMS-SLAM は、ORB アルゴリズムによって識別された静的機能を追跡します。著者らは、提案した手法を TUM RGB-D および KITTI データセットでテストし、その結果は、常にうまく機能していた VSLAM アルゴリズムよりも良好でした。さらに、DMS-SLAM は、追跡ステップで動的オブジェクト上の特徴点が削除されるため、元の ORB-SLAM 2.0 よりも高速に実行されます。上記の利点にもかかわらず、この方式は、テクスチャが少なく、動きが速く、非常に動的な環境では困難を伴います。

5.4 目標 4: リソースの制約

一部の VSLAM メソッドは、理想的な条件のデバイスと比較して、計算リソースが限られたデバイス向けに構築されています。これは、たとえば、モバイル デバイスや組み込みシステムを備えたロボット向けに設計された VSLAM の場合に当てはまります。

1) コンピューティング能力が限られているデバイス:

EdgeSLAM は、Xu らによって提案された、モバイルおよびリソースに制約のあるデバイス向けのリアルタイムのエッジ支援セマンティック VSLAM システムです [89]。これは、複雑なスレッドを使用せずに、エッジ サーバーおよび関連モバイル デバイスによって使用される一連のきめの細かいモジュールを採用しています。EdgeSLAM には、ターゲットのセグメンテーションと追跡の効果を最適化するためのマスク RCNN テクノロジーに基づくセマンティック セグメンテーション モジュールも含まれています。著者らは、携帯電話や開発ボードなどの市販のモバイル デバイスをエッジ サーバーにインストールすることで、その方法を実践しました。オブジェクトのセグメンテーションの結果を再利用することで、システム パラメータをさまざまなネットワーク帯域幅と遅延状況に適応させ、処理の繰り返しを回避します。EdgeSLAM は、TUM RGB-D、KITTI の単眼視覚インスタンス、および実験セットアップ用に作成されたデータセットで評価されています。

ステレオ カメラについては、Schlegel、Colosi、および Grisetti [90] が、ProSLAM と呼ばれる軽量の機能ベースの VSLAM フレームワークを提案し、好評のフレームワークと同等の結果が得られました。彼らのアプローチは 4 つのモジュールで構成されています: 3D 点群と関連する特徴記述子を作成する三角測量モジュール、2 つのフレームを処理して現在位置を決定する増分動き推定モジュール、ローカル マップを作成するマップ管理モジュール。ローカリゼーション モジュールは、ローカル マップの類似性に基づいてグローバル マップを更新します。ProSLAM は、単一のスレッドを使用して点の 3D 姿勢を取得し、少数の既知のライブラリを活用してシンプルなシステムを作成します。KITTI および EuRoC データセットでの実験によると、それらの方法は良好な結果を達成できます。ただし、回転推定には弱く、BA モジュールは含まれていません。

Bavle et al. [91] は、航空機ロボット用の軽量のグラフベースの VSLAM フレームワークである VPS-SLAM を提案しました。彼らのリアルタイム システムは、幾何学的データ、複数の物体検出技術、および VO/VIO を統合して、姿勢推定を容易にし、環境のセマンティック マップを構築します。VPS-SLAM は、低レベルの特徴、IMU 測定、および高レベルの平面情報を使用して、スパース セマンティック マップを再構築し、ロボットの状態を推定します。このシステムは、リアルタイム性と計算効率の点で、COCO データセット [93] に基づく軽量バージョンである You Only Look Once v2.0 (YOLO2) [92] を物体検出に利用しています。彼らは、手持ちカメラと RGB-D カメラを搭載した空中ロボットをテストに使用しました。TUM RGB-D データセットの屋内サンプルを使用してそのメソッドをテストしたところ、既知の VSLAM メソッドと同じ結果を得ることができました。ただし、同社の VSLAM システムは、周囲エリアのセマンティック マップを構築するために少数のオブジェクト (椅子、本、ラップトップなど) しか使用できません。

Tseng et al. [94] は、低割り当て条件を満たす別のリアルタイム屋内 VSLAM 方法を提案しました。著者らは、妥当な位置特定精度に必要なフレーム数と視覚要素を推定する手法も提案しています。彼らのスキームは OpenVSLAM [95] フレームワークに基づいており、特定のオブジェクトへのアクセスなど、現実世界で発生する緊急事態にそれを使用します。このシステムは、正確な姿勢推定のために Efficient Perspective Point (EPnP) および RANSAC アルゴリズムを適用することにより、シーンの特徴マップを取得します。屋内テストの結果によると、同社のデバイスは照明条件が悪い場合でも正確な結果を得ることができます。

2) 計算オフロード

Ben Ali ら [96] は、ロボットの計算負荷を軽減するために、エッジ コンピューティングを使用してリソースを大量に消費する操作をクラウドに移行することを提案しました。彼らは、間接フレームワーク Edge SLAM 14 の ORB-SLAM 2.0 のアーキテクチャを変更し、ロボット上で追跡モジュールを実行し、残りをエッジ コンピューティング デバイスに移行しました。VSLAM パイプラインをロボットとエッジ デバイス間で分割することにより、システムはローカル マップとグローバル マップの両方を維持できます。リソースが少なくても、精度を犠牲にすることなく正しく機能できます。彼らは、TUM RGB-D データセットと、RGB-D カメラを搭載したさまざまなモバイル デバイスを使用して収集された 2 つの特定の屋内環境データセットを使用して評価を実行しました。ただし、これらのアプローチの欠点の 1 つは、さまざまな SLAM モジュールの分離によりアーキテクチャの複雑さが増大することです。もう 1 つの問題は、システムが短期間しか正常に動作しないのに対し、長期シナリオ (複数日など) で Edge SLAM を使用するとパフォーマンスが低下することです。

5.5 目標 5: 多用途性

このカテゴリの VSLAM の作業は、直接的な悪用、悪用、適応、および拡張に焦点を当てています。

住倉ら[95]は、適応可能なオープンソース VSLAM フレームワークである OpenVSLAM を提案しました。これは、主に迅速な開発に使用され、サードパーティ プログラムからも呼び出すことができます。特徴ベースのアプローチは、単眼、ステレオ、RGB-D などの複数のカメラ タイプと互換性があり、再構成されたマップは保存したり、後で使用するために再利用したりできます。OpenVSLAM は、強力な ORB 特徴抽出モジュールを備えているため、追跡精度と効率の点で ORB-SLAM および ORB-SLAM2.0 よりも優れています。ただし、コードの類似性が ORB-SLAM 2.0 を侵害するという懸念から、システムのオープンソース化は中止されました。

リアルタイム、精度、弾力性の間のギャップを埋めるために、Ferrera ら [97] は、OV^2スラッジ単眼カメラとステレオ ビジョン カメラで動作する方法を開発しました。これにより、特徴抽出をキーフレームに制限し、測光エラーを排除して後続のフレームでそれらを監視することにより、計算量が削減されます。この意味で、VSLAM アルゴリズムの直接法と間接法の利点を組み合わせたハイブリッド方式です。EuRoC、KITTI、TartanAir などのよく知られたベンチマーク データセットを屋内および屋外の実験で使用すると、パフォーマンスと精度の点でいくつかの主流のスキームを上回ることが実証されました。

Teed と Deng は、DROID-SLAM と呼ばれる別の方法を提案しました。これは、単眼カメラ、ステレオカメラ、および RGB-D カメラ用の深層学習ベースのビジュアル SLAM です [98]。これらは、よく知られている単眼およびステレオ追跡方法よりも高い精度と堅牢性を実現できます。彼らのスキームは、バックエンド (BA 用) スレッドとフロントエンド (キーフレーム収集およびグラフ最適化用) スレッドを含めてリアルタイムで実行できます。DROID-SLAM はすでに単眼カメラ インスタンスでトレーニングされているため、ステレオおよび RGB-D 入力で再度トレーニングする必要はありません。間接法と同様に、この方法は投影誤差を最小限に抑えながら、特徴の認識とマッチングのための前処理を必要としません。ダウンサンプリング レイヤーと残差ブロックを含む特徴抽出ネットワークが各入力画像を処理して、高密度の特徴を作成します。DROID-SLAM は、TartanAir、EuRoC、TUM RGB-D などのよく知られたデータセットでテストされ、許容可能な結果が得られています。

Bonetto et al. [99] は、RGB-D カメラに基づく全方向ロボット用のアクティブ技術である iRotate を提案しました。さらに、カメラの視野内の障害物を検出するためのモジュールがメソッドに設定されています。iRotate の主な目的は、未踏の場所や以前に訪れた場所の調査結果を提供することで、ロボットが環境をマッピングするために必要な距離を短縮することです。上記の方法では、バックエンドとしてグラフ機能を備えた VSLAM フレームワークを使用します。シミュレートされた三輪全方向ロボットと実際の三輪全方向ロボットを比較することで、著者らは主流の VSLAM 手法と同じ結果を達成できます。このアプローチの主な欠点は、ロボットが部分的なパスの再計画のために開始/停止の状況に直面する可能性があることです。

5.6 目標 6: 視覚的な走行距離計

このような方法は、ロボットの姿勢を決定する際に可能な限り最高の精度を得ることを目的としています。

1) ディープニューラルネットワーク

動的 SLAM フレームワークは [100] で提案されており、正確な姿勢推定と適切な環境理解のために深層学習を利用しています。VO のセマンティック レベル モジュールの最適化の一環として、著者らは CNN を使用して環境内の移動物体を認識し、不正確な特徴マッチングによって引き起こされる姿勢推定エラーを削減するのに役立ちます。さらに、ダイナミック SLAM は、選択的追跡モジュールを使用してシーン内の動的位置を無視し、欠落特徴補正アルゴリズムを使用して隣接するフレームの速度不変性を実現します。結果は良好ですが、定義されたセマンティック クラスの数が限られているため、システムは膨大な計算コストを必要とし、動的オブジェクトと静的オブジェクトを誤って分類するリスクに直面します。

Bloesch et al. [101] は、シーン ジオメトリの凝縮された緻密な表現を提供する Code-SLAM 直接技術を提案しました。彼らの VSLAM システムは PTAM [14] の拡張バージョンであり、単眼カメラのみに依存して動作します。彼らは強度画像を畳み込み特徴に分割し、SceneNet RGB-D データセットからの強度画像でトレーニングされた CNN を使用してディープ オートエンコーダーにフィードします。EuRoC データセットの屋内インスタンスは Code-SLAM のテストに使用されており、精度とパフォーマンスの点で期待できる結果が得られています。

Wangらは、単眼設定用のディープリカレント畳み込みニューラルネットワーク(RCNN)アーキテクチャを使用したエンドツーエンドのVOフレームワークであるDeepVOを提案した。彼らの手法では、深層学習を使用して適切な特徴を自動的に学習し、連続的なダイナミクスと関係をモデル化し、カラー フレームから直接ポーズを推測します。DeepVO アーキテクチャは、FlowNet と呼ばれる CNN (連続フレームにわたるオプティカル フローを計算できます) と 2 つの Long Short-Term Memory (LSTM) レイヤー (CNN によって提供されるフィードに基づいて時間的変化を推定するために使用されます) で構成されます。このフレームワークは、CNN とリカレント ニューラル ネットワーク (RNN) を組み合わせることにより、視覚的特徴の抽出と逐次モデリングを同時に実行できます。DeepVO は、強化された VO のために学習された知識モデルと幾何学的情報を組み合わせることができます。ただし、従来のジオメトリベースの VO メソッドの代替として使用することはできません。

Parisotto et al. [103] は、LSTM の代わりにニューラル グラフ最適化 (NGO) ステップを使用して、DeepVO に似たエンドツーエンド システムを提案しました。彼らのアプローチは、均一な時間にさまざまなポーズに基づいてループ クロージャの検出と修正を実行します。NGO は 2 つのアテンション最適化手法を使用して、ローカル姿勢推定モジュールの畳み込み層によって行われた集約推定を共同で最適化し、グローバルな姿勢推定を提供します。彼らは 2D および 3D 迷路でその技術を実験し、DeepVO のパフォーマンスと精度レベルを超えました。上記のメソッドは、再位置化信号を提供するために SLAM フレームワークに接続する必要があります。

別の研究では、Czarnowski et al. [104] は、主に単眼カメラからの環境マップの高密度再構成に使用される、DeepFactors という名前の最も一般的な VSLAM フレームワークを導入しました。マップをより安定して再構築するために、同社のリアルタイム ソリューションでは、姿勢と深度を同時に最適化するための学習およびモデルベースの手法と組み合わせた確率データを使用します。作成者は CodeSLAM フレームワークを変更し、ローカル/グローバル ループ クロージャ検出などの不足しているコンポーネントを追加しました。約 140 万枚の ScanNet [105] 画像でトレーニングした後、システムは ICL-NUIM および TUM RGB-D データセットで評価されます。DeepFactors は、CodeSLAM フレームワークのアイデアを改善し、従来の SLAM パイプラインでのコードの最適化に焦点を当てています。ただし、モジュールの計算コストのため、このアプローチではリアルタイムのパフォーマンスを保証するために GPU を使用する必要があります。

2) 深いフレーム間処理

別の研究では、[106] の著者らは、カメラの動きを検出するために 2 つの画像間の測光誤差と幾何学的誤差を削減し、既存の方法を改善することにより、RGB-D カメラ用のリアルタイム高密度 SLAM 方法を開発しました。彼らのキーフレームベースのソリューションは、Pose SLAM (高密度マップを生成するために非冗長なポーズのみを保持する) を強化し、高密度のビジュアルオドメトリ機能を追加し、安定したカメラの動きを推定するためにカメラフレームからの情報を効率的に利用します。著者らはまた、エントロピー ベースの手法を使用して、ループ クロージャーの検出とドリフト回避のためにキーフレームの類似性を計算します。ただし、彼らのアプローチでは、ループ クロージャーの検出とキーフレーム選択の品質に関してまだ作業が必要です。

Li et al. が発表した別の研究では、特徴ベースの VSLAM 手法 (DP-SLAM と呼ばれる) を使用して、リアルタイムの動的なオブジェクトの削除が実現されています。この方法では、移動するオブジェクトから導出されるキーポイントの可能性に依存するベイジアン伝播モデルが使用されます。DP-SLAM は、移動確率伝播アルゴリズムと反復確率更新を使用して、幾何学的制約とセマンティック データの変更を克服できます。ORB-SLAM 2.0 と統合されており、TUM RGB-D データセットでテストされています。結果は正確ですが、システムはスパース VSLAM でのみ動作し、反復的な確率的更新モジュールによる高い計算コストに直面します。

Dongらによって提案された屋内ナビゲーションシステムPair Naviは、エージェントが以前に追跡した経路を、他のエージェントが将来使用できるように再利用します。そのため、リーダーと呼ばれる前の移動ロボットは、方向転換や特定の環境情報などの追跡情報を取得し、同じ目的地に行く必要がある次の移動ロボット (フォロワー) に提供します。フォロワーは再位置推定モジュールを使用して基準軌道に対する位置を決定しますが、リーダーは視覚的なオドメトリ モジュールと軌道作成モジュールを組み合わせます。ビデオ特徴セットから動的オブジェクトを識別して削除するために、システムはマスクされた領域ベースの CNN (マスク R-CNN) を採用します。彼らは、複数のスマートフォンから収集したデータセットでペアナビをテストしました。

3) 各種機能処理

このカテゴリのもう 1 つのアプローチは、Li らによって提案された TextSLAM と呼ばれるテキストベースの VSLAM システムです。FAST コーナー検出技術を使用してシーンから取得したテキスト項目を SLAM パイプラインに組み込みます。テキスト アイテムにはさまざまなテクスチャ、パターン、セマンティクスが含まれているため、この方法ではそれらをより効果的に使用して高品質の 3D テキスト マップを作成できます。TextSLAM は、テキスト項目を安定した視覚基準マーカーとして使用し、テキスト項目が見つかった最初のフレームの後にテキスト項目をパラメータ化し、ローカリゼーションのために 3D テキスト オブジェクトをターゲット イメージに再度投影します。彼らはまた、瞬時のテキスト項目の特徴を初期化するための新しい 3 変数パラメータ化手法も提案しています。単眼カメラと著者が作成したデータセットを使用して、屋内と屋外の両方の環境で実験が実行され、結果は非常に正確でした。テキストのない環境での動作、短い文字の解釈、および大きなテキスト辞書の保存の必要性が、TextSLAM の 3 つの基本的な課題です。

Xu et al. [43] は、改良された ORB-SLAM に基づく間接 VSLAM システムを提案しました。このシステムは、占有グリッド マッピング (OGM) 方法と新しい 2D マッピング モジュールを使用して、高精度の位置特定とユーザー インタラクションを実現します。彼らのシステムは、OGM を使用して環境の地図を再構築し、障害物の存在を等間隔の可変フィールドとして表示し、ルートを計画しながら継続的なリアルタイム ナビゲーションを可能にします。生成されたデータセットを実験的に検査すると、GPS が拒否された場合でもその近似関数が示されます。しかし、彼らの技術は、動的で複雑な環境ではうまく機能することが難しく、廊下や特徴のない状況で特徴を適切に一致させるのに苦労しています。

Ma らは、追跡とグラフの最適化に平面を利用する RGB-D カメラ用の直接 VSLAM 法である CPA-SLAM 法を提案しました。フレームとキーフレーム、およびフレームとプレーンの位置合わせは、そのテクノロジーに定期的に統合されています。また、カメラの参照キーフレームと平面画像の位置合わせを追跡する画像位置合わせアルゴリズムも導入されています。キーフレーム データは、追跡する最短時間と地理的距離を見つけるために CPA-SLAM によって使用されます。システムの追跡システムのリアルタイム パフォーマンスは、平面セットアップの有無にかかわらずテストされ、TUM RGB-D および ICL-NUIM データセット、および屋内および屋外のシーンで分析されます。ただし、少数のジオメトリ、つまり平面のみをサポートします。

06  研究動向

6.1 統計

关于上述各种综述论文的分类,我们在图4中可视化了处理后的数据,以发现VSLAM的当前趋势。在子图“a”中,我们可以看到,大多数提出的VSLAM系统都是独立的应用程序,它们从头开始使用视觉传感器实现整个定位和建图过程。虽然ORB-SLAM 2.0和ORB-SLAM是用于构建新框架的基础平台,但最小化方法是基于其它VSLAM系统的,如PTAM和PoseSLAM。此外,就VSLAM的目标而言,子图“b”中最重要的是改进了视觉里程计模块。因此,最近的大多数VSLAM都试图解决当前算法在确定机器人位置和方向方面的问题。姿态估计和真实世界生存能力是提出新的VSLAM论文的进一步基本目标。关于被调查的论文中用于评估的数据集,子图“c”说明大多数工作都在TUM RGB-D数据集上进行了测试。该数据集已被用作已调研论文中评估的主要基线或多个基线之一。此外,许多研究人员倾向于对他们生成的数据集进行实验。我们可以假设生成数据集的主要动机是展示VSLAM方法在真实场景中的工作原理,以及它是否可以用作端到端应用程序。EuRoC MAV和KITTI分别是VSLAM工作中下一个流行的评估数据集。从子图“d”中提取的另一个有趣的信息是关于使用VSLAM系统时使用语义数据的影响。我们可以看到,大多数被调研的论文在处理环境时不包括语义数据。我们假设不使用语义数据的原因是:

  • 在许多情况下,训练识别对象的模型并将其用于语义分割的计算成本相当大,这可能会增加处理时间。

  • 大多数基于几何的VSLAM方案都被设计为即插即用设备,因此它们可以尽可能少地使用相机数据进行定位和建图。

  • 从场景中提取的错误信息也会给过程中增加更多的噪声。

環境を考慮すると、サブ図「e」でわかるように、半分以上のメソッドは困難な条件の動的環境でも機能するのに対し、残りのシステムは動的変化のない環境のみに焦点を当てています。また、部分図「f」では、ほとんどの方法は「屋内環境」または「屋内および屋外環境」に適用できますが、残りの論文は屋外条件でのみテストされています。特定のケースでのみ機能するメソッドは、他のシナリオで使用すると同じ精度が得られない可能性があることに注意してください。これが、一部の手法が特定のケースのみに焦点を当てている主な理由の 1 つです。

図 4 VSLAM の現在の研究傾向: a) 新しい手法を実装するために使用される基本的な SLAM システム、b) 手法の主な目的、c) 提案された手法がテストされているさまざまなデータセット、d) の使用提案された方法のセマンティクス データへの影響、e) 環境内に存在する動的オブジェクトの数、f) スキームがテストされたさまざまな環境。

6.2 傾向分析

今回の調査では、広く注目を集めている最新のビジュアル SLAM 手法をレビューし、この分野における主な貢献を説明します。過去数年間で、VSLAM システムのさまざまなモジュールには幅広い安定した解決策と改善が見られましたが、依然として多くの可能性の高い領域と未解決の問題があり、これらの領域の研究は将来により多くの利益をもたらすでしょう。 SLAMの安定した手法の開発。視覚的な SLAM 手法が多数あることを考慮して、ここでは現在のトレンド分野について説明し、次のオープンな研究の方向性を紹介します。

深層学習:深層ニューラル ネットワークは、VSLAM [15] を含むさまざまなアプリケーションで刺激的な結果を示しており、いくつかの研究分野で重要な傾向となっています。これらのアーキテクチャは、その学習能力により、VO およびループ クロージャ検出の問題に対する適切な特徴抽出器として使用できるかなりの可能性を示しています。CNN は、VSLAM による正確なオブジェクト検出とセマンティック セグメンテーションを支援し、手作業で作成された特徴を正しく識別する際に、従来の特徴抽出およびマッチング アルゴリズムを上回るパフォーマンスを発揮します。深層学習ベースの手法は、大量の多様なデータと限られたオブジェクト クラスを含むデータセットでトレーニングされるため、動的ポイントを誤って分類し、誤ったセグメンテーションにつながるリスクが常に存在することに注意する必要があります。したがって、セグメンテーションの精度が低くなり、姿勢推定エラーが発生する可能性があります。

情報取得と計算コストのバランス:一般に、処理コストとシーン内の情報量は常にバランスが取れている必要があります。この観点から見ると、高密度マップにより VSLAM アプリケーションは高次元の完全なシーン情報を記録できますが、リアルタイムの実行は計算量が多くなります。一方、スパース表現は、計算コストが低いにもかかわらず、必要な情報をすべて取得することができません。また、リアルタイム パフォーマンスはカメラのフレーム レートに直接関係しており、ピーク処理時間でのフレーム損失は、アルゴリズムのパフォーマンスとは関係なく、VSLAM システムのパフォーマンスに悪影響を与える可能性があることにも注意してください。さらに、VSLAM は通常、密結合されたモジュールを利用するため、1 つのモジュールを変更すると他のモジュールに悪影響を与える可能性があり、バランスをとる作業がより困難になります。

セマンティック セグメンテーション:環境のマップを作成する際にセマンティック情報を提供すると、ロボットに非常に有用な情報をもたらすことができます。セマンティック情報は姿勢推定、軌道計画、およびループ閉塞検出モジュールで使用できるため、カメラの視野内のオブジェクト (ドア、窓、人など) を認識することは、現在および将来の VSLAM 作業のホットなトピックです。物体検出および追跡アルゴリズムが広く使用されるようになったことで、セマンティック VSLAM は間違いなくこの分野の将来のソリューションの 1 つとなるでしょう。

ループ閉鎖の検出:どの SLAM システムにも重要な問題があります。それは、蓄積された位置推定誤差による特徴的な軌道のドリフトと損失です。ドリフト検出とループ閉鎖検出では、以前に訪問した位置情報を識別する必要があるため、VSLAM の計算遅延とコストが高くなります [89]。主な理由は、マップ再構築のサイズに応じてループ クロージャ検出の複雑さが増加することです。さらに、さまざまな場所から収集した地図データを組み合わせて推定姿勢を調整することは、非常に複雑な作業です。したがって、ループ閉鎖検出モジュールの最適化とバランスには、大きな最適化の可能性があります。ループ クロージャ検出の一般的なアプローチの 1 つは、局所的な特徴に基づいてビジュアル ディクショナリをトレーニングし、それらを集約することで画像検索を最適化することです。

特殊なシーンの問題:テクスチャがなく、明確な特徴点がほとんどない環境で作業すると、ロボットの位置と方向のドリフト エラーが発生することがよくあります。VSLAM の主な課題の 1 つとして、このエラーはシステム障害につながる可能性があります。したがって、特徴ベースのアプローチの中で、物体検出や線特徴などの補完的なシーン理解方法を検討することが注目のトピックとなるでしょう。

07  結論

この論文では、カメラから収集された視覚データが重要な役割を果たす一連の SLAM の取り組みについて説明します。VSLAM システムアプローチに関する最近の研究を、実験設定、革新的なドメイン、物体検出および追跡アルゴリズム、セマンティック層、パフォーマンスなどのさまざまな特性に従って分類します。また、関連作業の主な貢献だけでなく、作成者の観点からの既存の落とし穴や課題、将来のバージョンに向けた最適化、他の関連手法で対処される問題についてもレビューします。この論文のもう 1 つの貢献は、VSLAM システムの現在の傾向と、研究者がさらに調査する未解決の問題についての議論です。

—— 素晴らしい推薦文 —

  1.  【文学】レーザーSLAMレビュー

  2. 4D の概要 | 自動運転のためのマルチセンサー融合認識

  3. 985の終わりに勉強中なのですが、ビジュアルSLAMの方向性に固執できないのですが、何かアドバイスをいただけないでしょうか...

  4. SLAMに基づくロボットの自律位置決めとナビゲーションの全プロセス

  5. 17 点群処理レビュー - 点群セマンティック セグメンテーション、点群オブジェクト検出、自動運転における点群処理...

おすすめ

転載: blog.csdn.net/weixin_40359938/article/details/127633508