画像とLiDAR点群の微分可能なキャリブレーション

文章:VoxelPoint-to-Pixel マッチングによる画像と LiDAR 点群の区別可能な登録

著者: Junsheng Zhou、Baorui Ma、Wenyuan Zhang、Yi Fang、Yu-Shen Liu、Zhizhong Han

エディタ: 点群 PCL

Knowledge Planet へようこそ。PDF ペーパーを入手して、友人のサークルに転送してください。この記事は学術的な共有のみを目的としています。侵害がある場合は、当社までご連絡の上、記事を削除してください。

点群処理、SLAM、三次元ビジョン、高精度地図などのコンテンツを共有するための公開アカウントですので、どなたでもご参加いただけますので、ご興味のある方は[email protected]までご連絡ください。侵害または複製については、WeChat cloudpoint9527 までご連絡ください。

まとめ

異なるモダリティ間の位置合わせ、つまりカメラからの 2D 画像と LiDAR からの 3D 点群の間の位置合わせは、コンピュータ ビジョンとロボット工学の分野における重要なタスクです。これまでの方法では、ニューラル ネットワークによって学習された点とピクセルのパターンを照合することで 2D-3D の対応を推定し、PnP (Perspective-n-Points) を使用して後処理段階で剛体変換を推定していました。ただし、これらの方法では、ポイントとピクセルは非常に異なる特徴を持ち、異なる方法でパターンを学習するため、ポイントとピクセルを共有潜在空間にロバストにマッピングすることが困難です。また、PnP は微分不可能であるため、変換の監視を直接構築することもできません。登録結果が不安定になる場合があります。これらの問題を解決するために、微分可能な確率的 PnP ソルバーを通じて構造化クロスモーダル潜在空間を学習し、ピクセル特徴と 3D 特徴を表現することが提案されています。具体的には、三値ネットワークは VoxelPoint からピクセルへのマッチングを学習するように設計されており、ボクセルとポイントを使用して 3D 要素を表現し、クロスモーダル潜在空間をピクセルごとに学習します。CNN に基づいてボクセルとピクセル ブランチを設計し、グリッドとして表されるボクセル/ピクセルで畳み込みを実行し、ボクセル化中に失われた情報を考慮して追加のポイント ブランチを統合しました。確率的 PnP ソルバーに直接監視を課すことで、フレームワークをエンドツーエンドでトレーニングします。クロスモーダル特徴の固有のパターンを調査するために、適応重み最適化を使用してクロスモーダル特徴を記述する新しい損失を設計します。KITTI および nuScenes データセットの実験結果は、私たちの方法が最先端の方法と比較して大幅な改善を達成していることを示しています。コードとモデルは、https://github.com/junshengzhou/VP2P-Match でオープンソースです。

主な貢献

• 微分可能 PnP ソルバーを介して、適応重み最適化によってエンドツーエンドでトレーニングされた構造化クロスモーダル潜在空間を学習することで、画像から点群への登録を学習する新しいフレームワークを提案しました。 

• 点群とピクセル間のモーダルギャップを克服するために、ボクセルと点の組み合わせとして 3D 要素を表現することを提案し、ボクセルのポイントとピクセルのマッチングを学習するために 3 値ネットワークが設計されました。 

• KITTI および nuScenes データセットでの広範な実験を通じて、最先端の技術における優れたパフォーマンスを実証しました。

内容概要

まず、構造化されたクロスモーダル潜在空間を学習するための VoxelPoint-to-Pixel マッチング フレームワークを詳細に紹介します。次に、固有のクロスモーダル パターンを学習するために、適応重み付け最適化を備えた新しい損失関数が提案されます。最後に、微分可能な確率的 PnP ソルバーが導入され、エンドツーエンドの学習モデルを推進します。全体的なメソッドのフレームワークを図 1 に示します。

写真

図 1: 私たちのアプローチの概要。入力として誤って登録された画像 I と点群 P のペアが与えられると、(a) まずスパース ボクセルを操作してスパース ボクセル V を生成し、次に 3 値ネットワークを適用して 3 つのモダリティからパターンを抽出します。適応加重損失を使用して、固有の 2D-3D クロスモーダル パターンを学習することで、2D パターンをピクセル特徴として、3D パターンをボクセルとポイント特徴の組み合わせとしてそれぞれ表します。(b) クロスモーダル特徴融合を使用して、2D/3D 空間の交差領域を検出します。(c) 交差点検出の結果に基づいて異常領域を除去し、2D-3D 特徴マッチングを使用して 2D-3D 対応を確立し、確率 PnP を適用してエンドツーエンド監視を実行することで外部姿勢の分布を予測します。

VoxelPoint-to-Pixel マッチング フレームワーク

  • このフレームワークは、2D および 3D 特徴を取得するために、ボクセル、ポイント、ピクセル ブランチを含む 3 値ネットワークを採用しています。

  • ボクセル ブランチでスパース コンボリューションを使用して、空間パターンを効果的にキャプチャします。

  • PointNet++ からインスピレーションを得た、ボクセル化中に失われた詳細な 3D パターンを復元するためのポイント ブランチを導入します。

  • ピクセル ブランチは、畳み込み U-Net に基づいて、グローバル 2D 画像特徴を抽出します。

2D-3D 特徴マッチング

  • 3D 要素をボクセルとポイントの組み合わせとして表現します。

  • 2D フィーチャと 3D フィーチャを共有潜在空間にマッピングすることでそれらを一致させる新しい方法を導入します。

  • VoxelPoint からピクセルへのマッチングにより、均一な特徴分布を提供する構造化されたクロスモーダル潜在空間が作成されます。

例外処理のクロスチェック:

  • 画像とLiDAR点群の収集方法が異なるため、外れ値領域が多数存在し、対応関係を見つけることができません。

  • 交差領域は、グラウンド トゥルース カメラ パラメーターを使用した LiDAR 点群の 2D 投影と参照画像の間の重なりとして定義されます。

  • 検出戦略を通じて、各 2D/3D 要素が交差領域に位置する確率を予測することは、2D-3D 対応を推測する前に 2 つのモダリティ上の外れ値領域を除去するのに役立ちます。

写真

図 2: ポイントツーピクセル (P2P) およびボクセルツーピクセル (VP2P) マッチングを使用して学習された潜在空間の t-SNE 視覚化。

適応型重み付け最適化戦略

適応加重最適化は、2D および 3D タスクにおける特徴マッチングの問題を解決するように設計されています。通常、コントラスト損失や三値損失などの従来の最適化手法は、2D-3D 特徴マッチングを処理する際に問題があります。適応重み付け最適化戦略が提案されています。これは、2D-3D ペアのサンプルのセットをターゲットにし、自動的に適応重み係数で正と負の重み付けを行います。より柔軟な最適化のためのペア。

写真

図 3: 適応重み付け最適化の図

微分可能な PnP

2D-3D 対応関係を確立するには、まず領域間検出を通じて 2 つのモダリティの外れ値領域を除去し、次に 2D-3D 特徴マッチングにクロスモーダル潜在空間の最近傍原理を使用します。対応関係を確立するには、arg max 操作を使用して、クロスモーダル潜在空間内で最大の類似性を持つ点座標を検索します。この操作は微分不可能ですが、エンドツーエンドのトレーニングを達成するためにガンベル推定器を通じて勾配が取得されます。確率的 PnP 法は、出力を確率分布として解釈し、非微分可能 PnP 問題を解くために使用されます。この問題は、KL 発散損失を計算することによって、予測された姿勢分布と地上の真実の姿勢分布の間の距離を最小化することによって管理されます。さらに、正確な姿勢はガウス ニュートン アルゴリズムに基づく反復 PnP ソルバーによって解かれ、姿勢損失が計算されます。GN アルゴリズムの反復部分は微分可能であるため、姿勢損失も最適化に関係します。

実験

広く使用されている 2 つのベンチマーク データセット、KITTI と nuScenes での画像から点群への登録タスクのパフォーマンスを評価します。どちらのデータセットでも、画像と点群が 2D カメラと 3D LIDAR によって同時にキャプチャされます。

定量的・定性的な比較実験

定量的比較: 私たちの手法は、KITTI および nuScenes データセット、特に RTE で優れたパフォーマンスを示し、最新の CorrI2P 手法よりも約 4 倍優れています。表 1 に示すように、エンドツーエンドのトレーニング フレームワークと確率的 PnP ソルバーを組み合わせることで、私たちのメソッドは堅牢な 2D-3D 対応を学習し、より正確な予測を達成できます。

写真

視覚的な比較: 図 5 の視覚的な比較は、私たちの方法がさまざまな道路状況下でより優れた位置合わせ精度を達成していることを示しています。DeepI2P や CorrI2P などの他の方法ではツリーと車の投影を正しく一致させることができない一方で、特に 1 行目や 2 行目などの難しいチューニングの場合、私たちの方法は他の方法と比較してより正確に位置合わせの問題を解決できます。画像内の対応するピクセルと一致します。

写真

図 5: KITTI データセットにおける画像と点群登録結果の視覚的比較

特徴マッチングの精度

図 6 は、特徴マッチングの視覚化を示しています。ここでは、2 つのモダリティでマッチング距離を計算することによって両側エラー マップが生成されます。2D から 3D へのマッチングでは、交差領域内の各 2D ピクセル上で最も類似性の高い点を探し、投影されたマッチング点と 2D ピクセルの間のオイラー距離を計算します。 2D マッチングでは、3D と 3D to Both が CorrI2P よりも大幅に優れています。私たちの方法では、ほとんどの一致で 2 ピクセル未満のわずかな誤差を達成できます。これは、学習した共有潜在空間がクロスモーダル パターンを正確に区別し、正確な特徴マッチングを達成できることを示しています。エッジ領域でクロス領域検出を完全に実行することは多くの場合困難であるため、画像や点群のエッジには比較的大きな誤差が存在する可能性があります。

写真

図 6: 特徴一致エラーの視覚化

稼働効率

他の方法との効率比較は、NVIDIA RTX 3090 GPU および Intel(R) Xeon(R) E5-2699 CPU で実行されました。表 2 では、私たちのメソッドはパラメーターが少なく、パフォーマンスが大幅に向上しています。さらに、私たちの方法は、1 フレームのネットワーク推論と姿勢推定にわずか 0.19 秒しかかかりません。これは、以前の方法よりも約 50 倍 (またはそれ以上) 高速です。

写真

アブレーション実験

アブレーション研究は、私たちの方法における各設計の有効性といくつかの重要なパラメーターの影響を検証するために実行され、KITTI データセットの下での RTE/RRE/Acc. のパフォーマンスが報告されます。

フレームワーク設計の検証: ボクセル分岐の削除、点群分岐の削除、適応加重最適化損失の置き換え、微分可能な PnP 駆動のエンドツーエンド監視の削除を含む 4 つのバリエーションを通じて、フレームワーク内の各設計の有効性を検証しました。 。結果を表 3 に示します。これは、完全なモデルがすべてのバリアントの中で最高のパフォーマンスを示し、フレームワーク内の各設計の有効性を証明しています。特に、点群ブランチの削除と比較して、ボクセルブランチはフレームワーク内でより重要な役割を果たしており、ボクセルモダリティが画像から点群への位置合わせの学習により適していることを示しています。

写真

入力解像度の影響: 入力画像解像度と点群密度の影響をさらに調査しました。結果を表 4 に示します。低解像度の画像では視覚情報の一部が失われる可能性があり、低密度の点群では詳細な幾何学的構造が失われる可能性があるため、両方のモダリティでより高い解像度を使用すると、より良い結果が得られます。パフォーマンスとバランスのとれた適切な設定を選択します。効率。

写真

要約する

この研究は、VoxelPoint-to-Pixel マッチングを介して画像から点群への登録を学習するための新しいフレームワークを提案します。このフレームワークでは、新しい適応加重損失を使用して構造化クロスモーダル潜在空間を学習します。点群とピクセルの間のドメインの違いを克服するために、3D 要素をボクセルと点の組み合わせとして表現します。さらに、微分可能な PnP ソルバーで予測されたポーズ分布を直接監視することでフレームワークをエンドツーエンドでトレーニングすることにより、KITTI および nuScenes データセットでの広範な実験により優れたパフォーマンスが実証されました。

リソース

自動運転・測位関連のシェアリング

[点群論文の早読み] LIDAR に基づく走行距離計と 3D 点群マップでの測位方法

自動運転におけるオプティカルフローに基づく動体検知

セマンティックセグメンテーションに基づくカメラの外部パラメータの調整

復習: 自動運転用パノラマ魚眼カメラの理論モデルと認識の紹介

高速シナリオにおける自律車両測位方法のレビュー

Patchwork++: 点群に基づく高速かつ堅牢な地面セグメンテーション手法

PaGO-LOAM: 地上ベースの最適化された LIDAR オドメトリ

マルチモーダルな道路エッジ検出およびフィルタリング方法

複数の LIDAR のキャリブレーション、位置決め、マッピングを同時に行うためのフレームワーク

動的な都市環境におけるロッドの抽出、マッピング、および長期的な位置特定

非反復走査ライダーの動き歪み補正

高速かつ密結合されたスパース直接レーダー慣性視覚オドメトリ

カメラと低解像度ライダーに基づく 3D 車両検出

3D 点群セマンティック セグメンテーション用のアノテーション ツールと都市データセット

ROS2 を始めるための基本的な概要

ソリッドステート LIDAR およびカメラ システムの自動キャリブレーション

LiDAR+GPS+IMU+ホイールスピードメーターのセンサーフュージョン測位ソリューション

まばらなセマンティックな視覚的特徴に基づいた道路シーンのマッピングと配置

自動運転における LIDAR に基づく車両の道路と歩道のリアルタイム検出 (コードオープンソース)

3D 点群セマンティック セグメンテーション用のアノテーション ツールと都市データセット

その他の記事もご覧いただけます:点群学習に関する過去の記事の概要

SLAM および AR 関連の共有

TOF カメラの原理の紹介

TOF 飛行時間型深度カメラの紹介

構造化 PLP-SLAM: 点、線、面を使用した単眼カメラ、RGB-D カメラ、および双眼カメラ向けの効率的なスパース マッピングおよび位置決めソリューション

オープンソースの最適化された F-LOAM ソリューション: 最適化された SC-F-LOAM に基づく

[ペーパークイックリーディング] AVP-SLAM: 自動駐車システムにおけるセマンティック SLAM

[点群論文の早読み] StructSLAM: 構造化線特徴 SLAM

SLAM と AR の概要

一般的に使用される 3D 深度カメラ

AR機器用単眼視覚慣性航法SLAMアルゴリズムのレビューと評価

SLAM の概要 (4) レーザーとビジョンの融合 SLAM

Kimera によるリアルタイム再構築のためのセマンティック SLAM システム

拡張が簡単な SLAM フレームワーク - OpenVSLAM

魚眼カメラをベースにしたSLAM方式の紹介

上記内容に誤りがございましたら、コメントを残していただき、修正や交換を歓迎いたします。侵害がある場合は、削除するためにご連絡ください。

一緒に共有して学びましょう!アイデアを持ち、喜んで共有する友人がナレッジ プラネットに参加し、共有に新たな活力を注入してくれることを楽しみにしています。共有されるトピックには、3 次元ビジョン、点群、高精度地図、自動運転、ロボット、その他の関連分野が含まれますが、これらに限定されません。

共有と協力: WeChat "cloudpoint9527" (備考: 名前 + 学校/会社 + 研究方向) 連絡先メールアドレス: [email protected]

おすすめ

転載: blog.csdn.net/u013019296/article/details/135364093