ICCV23 | Ada3D: 動的推論を使用して 3D 認識タスクにおけるデータの冗長性をマイニングする

画像.png

論文アドレス: https://arxiv.org/abs/2307.08209
プロジェクトのホームページ: https://a-suozhang.xyz/ada3d.github.io/

01. 背景と動機

自動運転タスクにおいて、3D検出(3D Detection)タスクは重要なタスクです。自動運転タスクの安全性は非常に重要であるため(セーフティ クリティカル)、認識アルゴリズムの遅延と精度には高い要件がありますが、車両コンピューティング プラットフォームのハードウェア リソースは(価格とエネルギー消費により)限られているため、制約がある場合、一般的なプラットフォームはエッジ組み込みコンピューティング プラットフォームであり、一般的に使用されるコンシューマー グレードの GPU よりもコンピューティング リソースとビデオ メモリ リソースが制限されています。上記の要件を達成するには、知覚モデルの効率を向上させる必要があります。

スパースボクセルに基づく 3D 検出方法は、その優れたパフォーマンスにより広く注目を集めています。空間を規則的な小さな正方形 (ボクセル、3D ピクセル) に分割することにより、不規則な点群が規則的な疎なボクセル表現に変換され、3D 疎な畳み込み演算子が特徴抽出に使用されます。

画像.png

ただし、ハードウェア効率が比較的低いという問題があり、下図に示すように、3D スパース畳み込みは元のデンス畳み込みの 1/7 の計算量しかないにもかかわらず、1.3 倍の実行時間を必要とします。

画像.png

典型的なボクセルベースの 3D 検出器のフレームワークを以下に示します。これは主に 2 つの部分で構成され、3D および 2D ドメイン (ドメイン) で処理されます。まず、点群がボクセル表現にボクセル化され、3D スパース畳み込みの 3D バックボーンを使用して特徴が抽出されます。3D から 2D への投影 (Z 軸上の平均プーリング) の後、高密度の 2D BEV (Bird-Eye-View 表現) に変換されます。

画像.png

研究者らは、既存の 3D 知覚モデルの効率最適化作業で焦点を当てているモデルの冗長性に加えて、データの冗長性も3D 知覚手法の効率を向上させる重要な側面であることを発見しました。

3D ボクセル空間の場合、センサーの中心近くに多数の冗長な背景点と冗長点が存在しますが、2D 鳥瞰図 (BEV) 空間の場合は、3D ボクセル投影によって取得されるため、そのほとんど (80%)上)、その位置のピクセル値は 0 です。既存の方法では、これらの冗長データに多くの計算とストレージが浪費されています。

研究者らは、以下の図に示すように、3D 検出タスクにおける入力の冗長性を示す検証実験を実施しました。入力点群 (青い曲線) から点の約 30% をランダムに削除すると、0.5 未満の mAP 損失のみが発生します。グラウンド トゥルース境界ボックス (オレンジ色の曲線、削除されたポイントは 3D 検出タスクの情報損失がないとほぼみなせます) 内のポイントをまったく削除しない場合、ポイントの 70% は時間の経過とともに失われ、明らかな問題はまだ残りません。精度の低下。上記の実験結果は、入力点群に大きな冗長性があり、圧縮と最適化の余地があることを示しています。

画像.png

02. メソッドの説明

この動機に基づいて、動的推論に基づく効率最適化フレームワークである Ada3D が提案されます。これにより、モデルが推論の冗長な部分を特定し、その計算と保存を適応的にスキップして、モデルの計算リソースの最適化を削減できます。精度を落とさない場合、Ada3D 手法は 3D ボクセルの 40%、2D ピクセルの 80% を削減し、同等の計算量 (FLOP) と約 5 倍のメモリ (Memory) 最適化を実現できます。また、実際のハードウェア テストでは、約 1.5 倍のレイテンシ最適化と 2.2 倍のピーク メモリ最適化を実証しました。

画像.png

この論文で提案されている Ada3D 動的推論フレームワークは主に次の 3 つの部分で構成されており、メソッドのフレームワーク図は以下に示されています。

(1) 共有軽量 BEV 空間ピクセル重要度予測器

(2) 点群密度を事前に考慮した空間フィルタリング手法

(3) スパース性を維持したバッチ正規化

画像.png

2.1 BEV スペース重要度予測器

モデルの 3D バックボーンと 2D バックボーン ネットワークの複数の場所に共有 BEV 空間予測子を適用し、モデルの特徴を各ピクセルの相対的な重要性にマッピングします。以下の図に示すように、CenterPoint モデルの Center ベースのオブジェクト ヒートマップを、予測子が適合する必要があるターゲットとして使用します。各グラウンドトゥルース境界ボックスの中心を中心として、その周囲に球状のガウス関数を使用してレンダリングされます。予測器は学習により、入力された特徴量から「認識対象の出現確率」を特定することができます。予測器は 5 つの効率的なグループ畳み込み層で構成され、低解像度の特徴を処理します。予測器全体の計算コストは​​元のモデルの 1% 未満で、最小限の追加計算のみが導入されます。

画像.png

重要度予測器は、各入力ポイントの重要性をより適切に予測できます。以下の図に示すように、オレンジ色は予測器の出力において高い信頼度を持つ領域を表し、境界ボックスの周囲の点は基本的に識別されます。

画像.png

2.2 点群密度を事前に考慮した密度ガイド付き空間フィルタリング

LIDAR で生成される点群には独特の特徴があり、下図左のようにセンサーの中心に近い点は密で、離れると点が疎になります。この現象により、予測子が近くの点に対してより高い信頼性の予測を与え、遠くのオブジェクトを無視する可能性があります。したがって、事前密度に基づいた空間フィルタリング手法を導入し、点群の密度とともに予測子スコアを考慮して、遠く離れた疎な部分の点を補償します。

画像.png

密度事前分布を導入すると、空間フィルタリングの精度が大幅に向上します。たとえば、以下の図では、左下隅の重要度予測器の出力では、遠くにある疎な Box1 と Box5 の信頼度は高くありませんが、密度補正後のヒート マップでは Box1 と Box5 を識別できます。 。

画像.png

定量的な観点から、密度事前の導入前後で破棄された入力の「ボックス内の割合」を比較すると、密度事前は誤って破棄されたボックス内の点の数を減らすことができ、それによって損失を減らすことができます。正確さ。

画像.png

2.3 スパース性を維持したバッチ正規化

ボクセルベースの 3D 検出器では、2D BEV 特徴がまばらな 3D ボクセルから投影されます。したがって、ピクセルの大部分は背景に位置し、値が 0 になります (下の青い部分に示すように)。ただし、最初のバッチ正規化層の後、特徴マップはスパース性を失います。スパース加速のために 2D 特徴マップのスパース マップを維持するために、元のバッチ正規化を改良し、「スパース性を保持するバッチ正規化手法」(Sparsity-preserving Batch Normalization) を設計し、スキップ平均を減算する操作を排除しました。正規化では、パフォーマンスを低下させることなく 2D 特徴マップのスパース性を維持できます。

画像.png

02. 実験分析

3.1 アルゴリズム高速化率の解析

KITTI、nuScenes、ONCE などの公開データセットで Ada3D の高速化効果をテストしました。以下に示すように:

画像.png

画像.png

画像.png

KITTI データセットでは、加速戦略が保守的 (Ada3D-A) の場合、モデルのパフォーマンスを向上させることさえできます。

精度の損失がない場合 (Ada3D-B)、約 5 倍の計算とストレージ (FLOPs/メモリ) の最適化が得られます。わずかな精度の損失 (Ada3D-C、<1mAP) で、約 1 桁 (10 倍) の計算ストレージの最適化が得られます。

画像.png

3.2 ハードウェア効率の分析

理論的な高速化に加えて、Nvidia GPU プラットフォームで Ada3D アルゴリズムをテストしました。テスト環境は次のとおりです: RTX3090、CUDA-11.1、SPConv v2.2.6 散乱 GEMM データフローを収集します。以下の図に示すように、ハードウェア テストから次の結論が得られます。

  1. ボクセルベースの 3D 検出器では、2D 部分と 3D 部分の両方を高速化することが重要ですが、2D BEV bakcbone の実際の時間とメモリ消費率は 3D 部分よりも高くなります。

  2. 理論上のコンピューティングおよびストレージのアクセラレーション比 (5 倍) と実際のハードウェア アクセラレーションの比の間には、大きなギャップ (1.5 倍/2.2 倍) があります。

この現象を考慮して、スパースコンボリューションの加速率がスパース比の増加に対して線形ではないことがその理由であるとさらに分析しました。密度が高い場合 (20%)、スパース畳み込みを使用した場合の高速化率は密な計算の高速化率より高くありません。3D 検出モデルのシナリオでは、データの 3D 部分はすでに高いスパース性を持っているため、スパース率の増加は実際の加速率にほぼ直線的に反映されます。2D 部分の場合、スパース性は最大密度から増加するため、加速率はスパース性の増加よりもゆっくりと増加します。

画像.png

3.3 アプリケーション分析

Ada3D 方式はデータレベルの冗長性の圧縮に重点を置いており、モデルの冗長性に重点を置いた圧縮方式と組み合わせることができます。以下の図に示すように、Ada3D は、SPVNAS によって検索された高効率モデル、または新しい設計の完全スパース モデルをさらに圧縮して、さらに冗長性を圧縮できます。

画像.png

04. 概要

3D知覚タスクにおける入力データの冗長性の問題に対応して、モデル推論プロセス中に冗長な入力データを削除することでモデルの計算とストレージ消費を効果的に削減できる動的推論Ada3Dに基づくフレームワークを提案しました。一般的なボクセルベースの 3D 検出器では、パフォーマンスを損なうことなく、3D ボクセルの約 40% と 2D ピクセルの 80% を除去し、約 5 倍のフロップとメモリの最適化を達成し、GPU デバイス上で実行できます。1.5 倍の遅延と 2.2 倍の遅延を達成するように最適化されています。 x ピークメモリ。Ada3D 手法は既存のモデル圧縮手法と組み合わせることができ、専用のハードウェア プラットフォームでより効率的な最適化の余地があります。

Ada3D の詳細については、プロジェクトの Web サイトを参照してください: https://a-suozhang.xyz/ada3d.github.io/Ada3D および他のアルゴリズム (LLM、拡散) のソフトウェアとハ​​ードウェアの協調最適化手法のフォローアップ作業については、研究室のホームページに注目してください: ホーム (学生の交流と学習を歓迎します )

著者: チャオ・ティエンチェン


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

さらに詳しく紹介 >>中国の世界的な AI エリートが集まる学習と成長のコミュニティ TechBeat

おすすめ

転載: blog.csdn.net/hanseywho/article/details/132367510