ICCV 2023 オープンソース | Waymo を潰す! 超強力な 3D ターゲット検出パラダイム DetZero!

著者: ピクルスペッパー風味のチューインガム | 出典: 3D Vision Workshop

公開アカウント「 3D Vision Workshop 」のバックエンドで、「Original Paper」と返信して論文の PDF とコードを取得します。

WeChat を追加: dddvisiona、注: ターゲット検出、グループに引き込みます。業界セグメンテーション グループは記事の最後に添付されています。

0. 著者の個人的な経験

3D ターゲット検出ソリューションはオフボード検出とオンライン検出に分かれており、主な違いはオンラインで実行されるかどうかです。オンライン検出は高速かつ正確ですが、長いシーケンスでは堅牢なターゲット追跡を実現できず、ターゲットの軌道が断片化する傾向があります。比較すると、オフボード検出はマルチフレーム点群情報を利用し、長期連続点群の複雑な表現を学習できます。

オフボード検出の精度は非常に高く、リアルタイムでは実行できませんが、このソリューションの主な目的は、長いシーケンスのレーダー点群の 3D ターゲット ラベリングを実現することであり、そのラベリング精度は手動ラベリングをも上回ります。ただし、現時点ではオフボード検出に関連するドキュメントはほとんどなく、より古典的なものは 2021 CVPR work 3DAL です。今日、著者は読者を DetZero の最新作品を読むように導きます。Waymo での精度はこの分野で 1 位を達成しており、アルゴリズムはオープンソースであり、高精度 3D 点群注釈に使用できます。こちらも「3Dビジョンワークショップ」の新コース「3D点群目標検出 フルスタック自動運転学習ルート」がオススメです!(シングルモーダル+マルチモーダル/データ+コード)》

1.エフェクト表示

この表はSOTAソリューションをタイムライン上に並べたもので、非常に斬新です。さまざまな SOTA ソリューションによって提案されているタイムラインから判断すると、DetZero は間違いなく精度の不連続な成長を達成しました。

f2767f7fe7b89b5f3f696bd44c527878.png

実際の走行効果も非常に優れており、生成された 3D ターゲット検出は真の値とほぼ完全に一致しています。

a80bdc5fd6e40b2755e415c2ba24d816.png

DetZero の作品はオープンソース化されているので、興味のある友人は作者の Github をフォローしてください。

2. まとめ

既存のオフボード 3D 検出器は、無限シーケンス点群を活用するために常にモジュラー パイプライン設計に従っています。主に 2 つの理由により、オフボード 3D 検出器の可能性が最大限に発揮されていないことがわかりました: (1) オンボードのマルチオブジェクト トラッカーは十分に完全なターゲット軌道を生成できない; (2) ターゲットの運動状態は非常に重要洗練段階では、長期的な時間的コンテキスト表現を使用することは避けられない課題となります。これらの問題を解決するために、私たちは DetZero という名前の新しい 3D オブジェクト検出パラダイムを提案します。具体的には、この論文では、生成されたターゲット軌道の完全性に焦点を当てるために、マルチフレーム検出器と組み合わせたオフライン追跡装置を提案します。注意メカニズム最適化モジュールは、分解回帰法を使用してターゲットを最適化するために、長期シーケンス点群にわたるコンテキスト情報の相互作用を強化するために提案されています。Waymo Open Dataset に関する広範な実験により、DetZero があらゆる最先端のオンボードおよびオフボード 3D 検出方法よりも優れたパフォーマンスを発揮することが実証されました。DetZeroは、85.15 m APH (L2)の検出性能で、Waymo 3D Object Detection Rank 1で1位にランクされていることに注目する価値があります。さらなる実験では、人間による注釈の代わりにこのような高品質の結果を使用できることが検証されています。私たちの実証的研究は、オフボード 3D オブジェクト検出に関する将来の研究の指針となる慣習に関する考察と興味深い発見につながります。

3. アルゴリズム解析

一般的な 3D ターゲット検出はオンライン検出であり、高速かつ正確です。何が問題なのでしょうか?

主な問題は継続性であり、長時間追跡すると追跡軌跡が断片化しやすく、同じターゲットの ID が失われやすく、誤検知の問題が発生する可能性があります。このようにして得られた検出結果をそのまま利用することはできず、後から別のネットワークを利用して最適化を行う場合にも不完全なコンテキスト情報により不一致が拡大してしまいます。

2b42fecaa62b7d957a883c9b95b63c51.png

オフボード 3D オブジェクト検出とは何ですか?

簡単にまとめると、モデルサイズや検出速度を気にせず、マルチフレームの点群情報を利用して3D検出精度を向上させることです。実際には、3D ターゲットの検出と追跡のためにレーダー点群の複数のフレームを同時に入力し、フレーム間で一貫した 3D ターゲットのラベリング結果を出力します。

以前の計画はどのように実行されましたか?

オフボード 3D オブジェクト検出では、マルチフレームの点群シーケンスが補完的な情報を提供できると考えられていますが、単一フレームの検出を複数のフレームに直接拡張すると、重大なパフォーマンスの低下が発生します。これは、点群自体が乱れており、複数のフレーム点群を直接積み重ねると非常に混乱するためです。したがって、フレーム中心のソリューションは使用されなくなり、さまざまな点群シーケンスをオブジェクトに処理してからそれらを融合するオブジェクト中心のソリューションが使用されます。したがって、以前のソリューションは基本的に、まずマルチフレーム 3D ターゲット検出を実行してターゲットの初期候補フレームを取得し、次にターゲット追跡用の ID を割り当て、次に ID ごとに点群シーケンスの特徴を抽出し、さらに最適化して、最後にインスタンス化アノテーションを実行します。

この方法の主な問題は、ターゲット機能の共通性を活用していないことです。たとえば、動的ターゲット軌道の場合、ターゲット ポイントがまばらな場合、従来の最適化モデル (a) は t2 フレームの密なポイントの特徴を利用できず、t1 フレームで出力されるボックス サイズは正確ではありません。DetZero(b) では、ターゲット ポイントが (原点 O1 から O2 まで) マージされ、各フレームからのポイントが正確なサイズ予測に貢献します。

c36d25f595c01ea5478d8e2aec808e43.png

DetZero ソリューションの具体的な違いは何ですか?

DetZero は、まずマルチフレーム ターゲット検出モジュールとオフライン追跡モジュールを使用して完全なターゲット軌道を生成し、次にアテンション メカニズムに基づく最適化モジュールを導入して、長期の時間的コンテキスト情報を使用してターゲットの属性 (サイズ、位置、信頼度) を予測し、最後にworld 座標系からフレーム座標系への変更により、自動ラベリング検出結果が得られます。DetZero は、アップストリームでの高再現率の検出と追跡、およびダウンストリームでの長期の時間的コンテキストを使用した洗練された高精度の最適化を重視します。

f5cf30a2fedf837e6e9bb028678bd8bc.png

ターゲットデータの準備では、特定の ID を持つターゲット軌跡 (点群、境界ボックス列、信頼度) が取得され、さらなる最適化が必要になります。以前は、オブジェクト中心のメソッドは状態ベースの戦略を使用して実装されていましたが、これは誤分類の伝播につながり、ターゲット間の潜在的な類似性が無視されます。しかし、DetZero の記事の著者は 2 つの現象を発見しました: (1) 剛体の運動状態に関係なく、幾何学的形状は継続的な期間にわたって大きく変化しません。(2) ターゲットの運動状態は規則的なパターンを示し、隣接する瞬間に強い一貫性があります。

これら 2 つの観察に基づいて、著者はアテンション メカニズムを使用して、上流のタスクから取得した境界ボックスを 3 つの異なるモジュールに分解し、オブジェクトの形状、位置、信頼度をそれぞれ予測することを提案します。ターゲットの境界ボックスを調整し、座標を変更すると、最終的な自動ラベル付け結果が得られます。

4. 実験

DetZero は Waymo データセットに対して多くの実験を行っており、使用される評価指標には、L1 レベルと L2 レベルを含む AP (平均精度) と APH (加重平均精度) が含まれます。L1 評価には 5 つを超える LiDAR 点群を持つオブジェクトが含まれ、L2 評価には 1 つ以上 5 つ以下の LiDAR 点を持つ 3D ラベルのみが含まれます。最も重要なメトリクスは mAPH (L2) であることに注意してください。こちらも「3Dビジョンワークショップ」の新コース「3D点群目標検出 フルスタック自動運転学習ルート」がオススメです!(シングルモーダル+マルチモーダル/データ+コード)》

他の SOTA ソリューションと比較して、DetZero の mAPH L2 は 85.15 に達し、Vehicle での同じタイプの 3DAL (2021 CVPR) の 5.93 (L1) および 9.51 (L2) mAPH を上回り、長期シーケンス ポイントの強力な利用を示しています。 3D オブジェクト検出を実行します。

ffcc742fc0d240b6fd74157b9106bfdb.png

以下は、他の SOTA ソリューションと上流部分のみおよびすべてのモジュールとの比較であり、アブレーション実験に似ています。上流モジュールによって生成された高品質のターゲット軌道のおかげで、完全なモデルは大幅に改善され、車両では 6.49 (L1) および 7.68 (L2) mAPH、歩行者では 3.99 (L1) および 4.67 (L2) mAPH となりました。

6b54cf6d4145b7302d36b7e104c4f4a3.png

後者の実験は非常に興味深いもので、DetZero のラベル付け機能が手動のラベル付けを超えていることを示しています。

d444408709fff225286cccab709afaa6.png

アブレーション実験では、各モジュールの役割を実証します。

a47ba24bac89ec7a066c38b901cee676.png 486a367ff393960ef520c9806f20e3bd.png 8e1138409a6b930663377e693a4b9e8c.png

最後の一般化実験は非常に重要だと感じます. これは主に最終最適化モジュールを目的としています. 著者は推論のための入力として異なる品質の 3 つの上流の結果を使用します. low はベースライン最適化モジュールを表し、refine は著者が提案したモジュール、improvement は画像情報を使用して上流候補ボックスのパフォーマンスをさらに向上させることを表します。

51ad77c4ac8c8ad0cd2da0636e8d89e5.png

5. まとめ

DetZero は、長期シーケンス点群を入力として使用する SOTA オフボード 3D 検出器です。主なアイデアは、まずマルチフレーム ターゲット検出器とオフライン トラッカーを使用してターゲット軌道を取得し、次にクロスアテンション メカニズムを使用して、ジオメトリ、位置、信頼性を計算し、自動ラベル付けの結果を最適化して取得します。DetZero は、非常に高い精度で Waymo データセットで 1 位を獲得し、3D ターゲットの検出とアノテーションに使用できます。最後に、紙面の都合上、すべての実験結果を掲載しているわけではありませんが、興味のある方は論文の原文をじっくり読んでみてください。

-終わり-

3Dビジョン三部作を効率的に学ぶ

最初のステップは、業界交流グループに参加し、テクノロジーの進歩を維持することです。

現在、ワークショップは、SLAM、産業用 3D ビジョン、自動運転などの 3D ビジョンの方向に複数のコミュニティを確立しています。サブディビジョン グループには、次のものが含まれます: [ 産業方向 ] 3D 点群、構造化光、ロボット アーム、欠陥検出 3D計測、TOF、カメラキャリブレーション、総合グループ [ SLAM 方向] マルチセンサーフュージョン、ORB-SLAM、レーザー SLAM、ロボットナビゲーション、RTK|GPS|UWB およびその他センサー交換グループ、SLAM 総合ディスカッショングループ [自動運転方向]深度推定、トランスフォーマー、ミリ波|ライダー|視覚カメラセンサー座談会、マルチセンサーキャリブレーション、自動運転総合グループなど [ 3D再構築の方向性] NeRF、colmap、OpenMVSなど これらに加えて、就職活動、ハードウェアの選択、ビジュアル製品の実装のためのコミュニケーション グループもあります。WeChat でアシスタントを追加できます: dddvisiona、注: グループ + 方向 + 学校 | 会社を追加すると、アシスタントがあなたをグループに追加します。

c8b120f4abee3812c5ce42b5cf62e134.jpeg
アシスタント WeChat: cv3d007 を追加してグループに参加します
2 番目のステップは、Knowledge Planet に参加して、質問にタイムリーに回答してもらうことです。

3D ビジョン分野のビデオ コース (3D 再構成、3D 点群、構造化光、ハンドアイ キャリブレーション、カメラ キャリブレーション、レーザー/ビジュアル SLAM、自動運転など)、ソース コード共有、ナレッジ ポイントの概要、入門および上級学習ルート、最新論文の共有、質問回答など、大手メーカー各社のアルゴリズムエンジニアが技術指導を行います。同時に、Planet は有名企業と協力して 3D ビジョン関連のアルゴリズム開発ポジションやプロジェクト ドッキング情報を公開し、テクノロジー、雇用、プロジェクト ドッキングを統合した熱心なファンが集まるエリアを作成します。共に働き、より良い AI の世界を創造しましょう。プログレス、ナレッジ プラネット エントランス:「初心者からマスターまでの 3D ビジョン」

3D ビジョンのコア技術を学び、スキャンして表示し、3 日以内に無条件の返金を受けてください 461c0313ca3f4aaf5fd42c13b96375e9.jpeg
高品質のチュートリアル資料、質問への回答、問題の効率的な解決に役立ちます
3 番目のステップは、3D ビジョンを体系的に学習し、モジュール知識システムを深く理解して実行することです。

3D ビジョンの特定の分野 [理論、コードから実践まで] を体系的に学習したい場合は、3D ビジョン品質コース学習 Web サイトをお勧めします: www.3dcver.com

科学研究論文の執筆:

[1] 3D ビジョンに関する科学研究方法と学術論文執筆に関する中国初のチュートリアル

基礎課程:

[1]立体視アルゴリズムの重要なC++モジュールを基礎入門から応用まで徹底解説

[2] 3D ビジョンのための Linux 組み込みシステム チュートリアル [理論 + コード + 実践]

[3]カメラのモデルとキャリブレーションを学ぶにはどうすればよいですか? (コード+実戦)

[4] ROS2 の入門から習得まで: 理論と実践

[5] dToFレーダーシステム設計を徹底的に理解する[理論+コード+実践]

インダストリアル3Dビジョンディレクションコース:

[1] (第 2 回) ストラクチャード ライト 3D 再構築システムをゼロから構築する [理論 + ソース コード + 実践]

[2]ナニーレベルの線形構造光(単眼&双眼)3D再構成システムチュートリアル

【3】ロボットアーム掴み入門から実践編(理論+ソースコード)

[4] 3次元点群処理:アルゴリズムと実践概要

【5】Open3Dによる点群処理チュートリアルを徹底理解!

[6] 3D 視覚的欠陥検出チュートリアル: 理論と実践!

SLAMディレクションコース:

[1]ロボット分野における3DレーザーSLAM技術の原理、コード、実戦を徹底分析

[1]レーザー・ビジョン・IMU・GPS融合SLAMアルゴリズムを徹底解析:理論導出、コード解説、実戦

[2] (第2回)LOAMフレームワークによる3DレーザーSLAMを徹底理解:ソースコード解析からアルゴリズムの最適化まで

【3】視覚慣性SLAMを徹底理解:VINS-Fusionの原理とソースコード解析を徹底解説

[4]屋内外レーザーSLAMの主要アルゴリズムと実戦を徹底的に分析(地図製作者+LOAM+LIO-SAM)

[5] (第2回) ORB-SLAM3の理論解説とコード解析

視覚的な 3D 再構成

[1]パースペクティブ3D再構築を徹底:原理解析、コード解説、最適化改善

自動運転コース:

[1] 自動運転分野における車載センサーの空間同期(キャリブレーション)の徹底解析

[2] 中国初の自動運転目標検知分野におけるトランスフォーマーの原理と実践講座

[3]単眼の奥行き推定方法: アルゴリズムのレビューとコードの実装

【4】自動運転分野における3次元点群目標検出のフルスタック学習ルート!(シングルモーダル + マルチモーダル/データ + コード)

[5]ディープラーニングモデルを実際のプロジェクトに導入するにはどうすればよいですか? (分類 + 検出 + セグメンテーション)

やっと

1. 3Dビジュアル記事の執筆者募集

2. 3Dビジョン講座(自動運転、SLAM、産業用3Dビジョン)のメイン講師の募集

3.トップカンファレンスの論文共有と3Dビジョンセンサー業界のライブブロードキャストへの招待

おすすめ

転載: blog.csdn.net/Yong_Qi2015/article/details/132913621