ICLR 2023 | アクティブ ラーニングを使用した 3D オブジェクト検出における高いアノテーション コストの削減

ガイド

この記事は、受理された論文「一般化の観点からアクティブ 3D オブジェクト検出を探索する」の紹介ですICLR 2023これは、最小限の境界ボックスのラベル付けコストで検出パフォーマンスを向上させることを目的とした、3D オブジェクト検出におけるアクティブ ラーニングの先駆的な研究です。この目的を達成するために、提案された 3 つの選択基準に従って手動アノテーション用に少数の点群を徐々にフィルタリングできる 3D オブジェクト検出のための階層型アクティブ学習スキームを提案します。私たちの記事が ICLR 2023 に掲載されたことは大変光栄です。現在、プロジェクトのコードはオープンソース化されています。ぜひ試してみてください。

OpenReview: https://openreview.net/forum?id=2RwXVje1rAh
コード: https://github.com/Luoyadan/CRB-active-3Ddet

概要

3D 物体検出に基づいてLiDAR、3D シーンの理解に不可欠な役割を果たし、自動運転やロボット工学などの分野で広く使用されています。新しい 3D 検出モデルにより、大規模な注釈付き点群を犠牲にして正確な認識が可能になります。この点群では、7 自由度 (DOF) の 3D 境界ボックス (各オブジェクトの位置、サイズ、方向情報を含む) に注釈が付けられます。Waymo のようなベンチマーク データセットでは、1,200 万個を超える LiDAR 境界ボックスにアノテーションを付ける必要があり、アノテーターが正確な 3D ボックスにアノテーションを付けるには 100 秒以上かかります。このパフォーマンス向上の前提条件は、特にラベル付けの予算が限られている場合、実際にモデルを適用する実現可能性を大きく妨げます。

この制限を軽減するために、アクティブ ラーニング ( Active Learning,AL) は、ラベルのないデータのごく一部についてラベルをクエリするだけでラベル付けのコストを削減することを目的としています。基準に基づいたクエリ選択プロセスは、ラベル付けの予算がなくなるまで、後続のモデル トレーニングに最も有益なサンプルを繰り返し選択します。この規格は、サンプルの不確実性とサンプルの多様性から導き出されたヒューリスティックを使用して、サンプルの有益性を定量化することを約束しています。ただし、これらの AL メソッドは一般に、より多くのオブジェクトを含む点群を優先します (したがって、不確実で多様なオブジェクトが含まれる可能性が高くなります)。注釈の予算が固定されている場合、3D ボックスの注釈を形成するにはより多くのクリックが必要となるため、このタイプの点群の選択は最適とは程遠いです。

上記の制限を克服するために、注釈コストとして 3D ボックスを使用したコスト効率の高い AL 基準を提案し、最適な一般化上限との関係を経験的に研究します。具体的には、 CRBと呼ばれる点群取得のための 3 つの費用対効果の高い選択基準、つまりラベルの簡潔性特徴の代表性、および幾何学的バランスを提案します。私たちの標準設計は、汎化リスクの上限を最適化する理論的分析に基づいており、テストセットに対する選択されたサブセットの分布の一貫性として再定式化できます。テスト セットの経験的分布はトレーニング中に一般性を失うことなく観察できないため、その事前分布について適切な仮定を立てることに注意してください。広範な実験検証の後、提案された CRB 戦略は、検出器のアーキテクチャに関係なく、2 つの大規模 3D 物体検出データセット上で、既存のすべての最先端の AL ベースラインを安定して上回っています。

方法

理論的動機

3D オブジェクト検出は本質的に分類タスクと回帰タスクの統合であるため、セットの差を減らすには、各ブランチの入力と出力を調整する必要があります。したがって、アクティブな選択中に検出器がフリーズすると、最適なDS ∗ \mathcal{D}^*_Sが見つかります。DS取得したコレクションの次の側面を強化すると解釈できます。

  1. ラベルの単純さ: 境界ボックスの境界ラベルの分布を揃えます。
  2. 特徴表現: 点群の潜在的な表現の周辺分布を調整します。
  3. 幾何学的バランス: 点群と予測された境界ボックスの幾何学的特徴の周辺分布の位置合わせは、次のように表現できます。

KaTeX 解析エラー: 未定義の制御シーケンス: 位置 286 の \strut: …\mathcal{P}_S, \̲s̲t̲r̲u̲t̲\widehat{\mathc…

ここで、PS \mathcal{P}_SPSそしてPT \mathcal{P}_TPTは、それぞれ選択したセット内の点群とテスト セット内の点群を表します。記号ϕ ( ⋅ ) \phi(\cdot)ϕ ( )は点群の幾何学的記述子を表し、d A d_{\mathcal{A}}d距離は有限サンプルセットから推定できます。潜在機能XS X_Sの場合バツSXT X_TバツTでは、トレーニング セットとは異なる特徴のみに焦点を当てます。これは、トレーニング エラーがゼロであるという仮定に基づいているためです。ED ^ L ℓ cls = 0 \mathbb{E}_{\widehat{D}_L}\ell^{cls} =0ED Lクラス_ _=0さらにED ^ L ℓ reg = 0 \mathbb{E}_{\widehat{D}_L}\ell^{reg} = 0ED Lレグ_=0テスト サンプルとそれに関連するラベルはトレーニング中に観察できないことを考慮して、テスト データの事前分布について仮定を立てます。境界ボックスのラベルと幾何学的特徴の事前分布は均一であると仮定します。dA d_{\mathcal{A}} をd、潜在表現が一変量ガウス分布に従うと仮定します。

点群をアクティブに選択するための提案された CRB フレームワークの概略フローチャート。 一般化リスクの最適化にヒントを得たこの派生戦略は、非冗長境界ボックス ラベル、潜在勾配、幾何学的特徴を持つ点群を階層的に選択して、テスト セットとのギャップを減らし、アノテーション コストを最小限に抑えます。

フェーズ 1: 簡潔なラベルのサンプリング

ラベルの簡潔さをサンプリング基準として採用することで、ラベルの冗長性を軽減し、ソース ラベルの分布をターゲットの以前のラベルの分布と一致させることを目指しています。特に、サイズK 1 \mathcal{K}_1を探します。K1サブセットDS 1 ∗ \mathcal{D}^*_{S_1}DS1、サブセットは確率分布PYS P_{Y_S}となるようなものです。PYS一様分布PYT P_{Y_T}PYT間のカルバック-ライブラー (KL) 発散は最小限に抑えられます。この目的のために、KL 発散とシャノン エントロピーH ( ⋅ ) H(\cdot)を組み合わせます。H ( )を組み合わせて、ラベル分布のエントロピーを最大化する最適化問題を定義します。

描画

ラベルなしプール{ ( P ) j } i ∈ [ n ] \{(\mathcal{P})_j\}_{i\in[n]} からすべての点群を取得します。{( P )j}i [ n ]検出器に渡し、NB N_Bを抽出しますNB境界ボックスの予測ラベル{ y ^ i } i = 1 NB \{\hat{y}_i\}_{i=1}^{N_B}{ y^私は}i = 1NB,その中y ^ i = argmax y ∈ [ C ] f ( xi ; wf ) \hat{y}_i = \text{argmax}_{y\in[C]} f(x_i; w_f)y^私は=引数最大y [ C ]f ( x私は;w番号jjj 個の点群のラベル エントロピー H( Y ^ j , S ) H(\widehat{Y}_{j, S})Y j S)は次のように計算できます。

描画

計算されたエントロピー スコアに従って、上位K 1 \mathcal{K}_1を除外します。K1候補を抽出し、代表的なプロトタイプの選択の第 2 段階を通じて検証します。

フェーズ 2: 代表的なプロトタイプの選択

この段階では、サブセットがDU \mathcal{D}_Uのみをカバーするかどうかを判断することを目的としています。DDL \mathcal{D}_LにはありませんDLにエンコードされた独自の知識。候補サンプルの特徴表現を調べるために、タスクを勾配空間上の K2-medoids 問題として定式化します。勾配に対する分類ターゲットと回帰ターゲットの影響を共同で説明するために、モンテカルロ除去 (MC-DROPOUT) を有効にし、複数のランダムな前方パスからの予測を平均することによって仮説ラベルを構築します。

描画

式では、μ S 2 \mu_{S_2}メートルS2σ S 2 \sigma_{S_2}pS2(そしてμ T \mu_TメートルTσ T \sigma_TpT) は、選択されたセット (テスト セット) の一変量ガウス分布の平均と標準偏差をそれぞれ示します。上記の式に基づいて、代表的なセットを見つけるタスクは、クラスター化されたデータからK 2 \mathcal{K}2を選択することとみなすことができます。K 2プロトタイプ (すなわち、K 2 {\mathcal{K}2}K 2 -medoids) を使用して、選択したサブセットとテスト セットの重心 (平均) が自然に一致するようにします。分散σ S 2 \sigma_{S_2}pS2σ T \sigma_{T}pT、基本的にはプロトタイプまでの各点の距離が同時に最小化されます。

フェーズ 3: 貪欲なポイント密度バランス

採用された 3 番目の基準は幾何学的バランスです。これは、選択されたプロトタイプの分布をテスト点群の周辺分布と一致させることを目的としています。点群は通常、数万 (または数百万) の点で構成されているため、点のメタフィーチャ (座標など) を直接位置合わせすると計算コストが高くなります。したがって、各境界ボックス内の点密度ϕ ( ⋅ , ⋅ ) \phi(\cdot, \cdot) を使用します。ϕ ( ,) 3D 点群内のオブジェクトの幾何学的特性を保存します。選択されたセットとラベルのないプールの幾何学的特徴を調整することにより、微調整された検出器は、境界ボックスの位置とサイズをより正確に予測し、近距離 (つまり、密) と長距離の密と疎を識別することが期待されます。テスト時間 (つまり、スパース) オブジェクト。点密度の確率密度関数 (PDF) は不明であり、境界ボックスの予測から推定する必要があります。この目的を達成するために、各カテゴリの有限サンプル セットを使用して計算されるカーネル密度推定 (KDE) を採用します。これは次のように表現できます。

事前に定義された帯域幅h > 0 h>0の場合h>0の場合、結果の密度関数の滑らかさを決定できます。ガウス カーネル関数K er ( ⋅ ) \mathcal{K}er(\cdot) をかー _ 確率密度関数を定義した後、最終候補セットDS \mathcal{D}_{S}DSの最適化問題は次のとおりです。ここで、候補セットのサイズはN r N_rです。Nr

ここで、ϕ ( ⋅ , ⋅ ) \phi(\cdot, \cdot)ϕ ( ,) は、各境界ボックスの点密度を測定するために使用されます。サブセットDS 2 \mathcal{D}_{S_2}から貪欲検索を使用します。DS2最小化および一様分布 p ( ϕ ( PT , BT ) ) 〜 unique ( α lo , α hi ) p(\phi(\mathcal{P}_T,\mathcal{B}_T)) \ を最小化するための最適な組み合わせを見つけますsim \texttt{制服}(\alpha_{lo}, \alpha_{hi})p ( ϕ ( PTBT))ユニフォーム__あるこんにちは KLの距離。

実験

定量分析

左2列がKITTIでの実績、右列がWAYMOでの実績です。

バックボーン 3D オブジェクト検出器として PVRCNN を使用します。さまざまなアクティブ ラーニング戦略によって達成された 3 次元 (3D) および鳥瞰図 (BEV) の検出パフォーマンスが上の図に示されており、影付きの領域は 3 回の試行の標準偏差を表しています。注釈付き境界ボックスの数や難易度設定に関係なく、CRB 戦略が一貫してすべての最先端のアクティブ ラーニング手法を大幅に上回るパフォーマンスを示していることが明確にわかります。特に、KITTI データセットでは、提案された CRB は、同等のパフォーマンスを達成しながら、ランダム サンプリング (RAND) よりも 3 倍高速なラベル付け時間を達成しています。

KITTI データセットの val 検証セットについて、ラベルの 1% のみをクエリした場合のパフォーマンス比較 (3D AP スコアを使用) が、一般的な AL 手法およびオブジェクト検出に適用された AL 手法と比較されます。

LLAL と LT/C は、分類タスクと回帰タスクを共同で考慮する採用された取得基準により、ボックスの 1% だけが「 」とラベル付けされている場合に競合する結果を達成することがわかります。私たちが提案した CRB は 3D mAP スコアを 6.7% 改善し、汎化リスクを最小限に抑える有効性を検証しました。

定性分析

1,000 個の注釈付き境界ボックスの予算の下での RAND (左下) と CRB (右下) のアクティブ 3D 検出パフォーマンスのケース スタディ。 偽陽性 (正しい予測) は赤 (緑) のボックスで強調表示されます。 オレンジ色のボックスは、信頼性の低い検出を示します。

同じ条件下では、CRB は RAND よりも正確で信頼性の高い予測を提供できることがわかります。さらに、RAND でトレーニングされた検出器は、図のオレンジ色のボックスで強調表示されているサイクリストの信頼度スコアが大幅に低くなります。これにより、CRB によって選択されたサンプルがテスト ケースによりよく一致することが確認されます。

3D オブジェクト検出器の選択

KITTI データセットでは、実験用の検出バックボーン ネットワークとしてSECONDが使用され、その結果が上の表に示されています。クエリ 3D バウンディング ボックスのわずか 3% を利用するだけで、提案された CRB メソッドは、さまざまな検出の困難にわたって同様の汎用 AL メソッドよりも一貫して優れており、3D mAP と BEV mAP をそれぞれ 4.7% と 2.8% 改善することが観察されます。

結論、欠点、将来の展望

このペーパーでは、3D バウンディング ボックス アノテーションのコストと実行時の複雑さを最小限に抑えながら、高性能の 3D オブジェクト検出を効率的に実現できる、アクティブ 3D オブジェクト検出の 3 つの新しい標準について調査します。私たちは、最適な取得サブセットの発見とセットの分散の低減との間の関係を理論的に分析します。このフレームワークは汎用性があり、既存の AL 戦略に適応可能であり、ヒューリスティック設計のための深い洞察を提供します。この作業は、テスト データの事前分布に関して行われた一連の仮定によって制限されており、実際には違反される可能性があります。代わりに、ターゲット ディストリビューションを調整に使用できる、アクティブ ドメイン アダプテーションのフレームワークを採用する機会が生まれます。これら 2 つの問題の解決は今後の課題となります。

おすすめ

転載: blog.csdn.net/CVHub/article/details/132521782