ICCV 2023 | 大型モデルを 3D センシングする唯一の方法! UniTR: 統合されたマルチモーダル Transformer Encoder!

下のカードをクリックして「CVer」公開アカウントをフォローしてください

AI/CVの重要な情報をいち早くお届け

クリックして入力 -> [3D 点群とトランスフォーマ] コミュニケーション グループ

CVer WeChat パブリック アカウントのバックグラウンドで返信: UniTR、この論文の PDF とコードをダウンロードできます

8602ad92b17aa1b4e335e76ae3f8669f.png

3D認識のための統合されたマルチモーダルトランスエンコーダ

UniTR: 鳥瞰図表現のための統合された効率的なマルチモーダル トランスフォーマー

論文: https://arxiv.org/pdf/2308.07732.pdf

コード: https://github.com/Haiyang-W/UniTR

準備作業: 効率的な点群変換エンコーダ

DSVT: 回転セットを使用した動的スパース ボクセル トランスフォーマー

論文: https://arxiv.org/abs/2301.06051

コード: https://github.com/Haiyang-W/DSVT

この記事では、ICCV2023 の最終論文「UniTR: BEV 表現のための統合された効率的なマルチモーダル トランスフォーマー バックボーン」を共有します。UniTR は、3D 認識用の初のマルチモーダル トランスフォーマー バックボーンであり、統合された一貫性のある新しいマルチモーダル 3D エンコーディングおよび融合ソリューションを作成し、3D 認識の大型モデルの強固な基盤を築き、新しい設計トレンドをリードします。

20e2b9dc0a3c2ee45b24eefa9bb228fd.png

問題の背景

  • ユニバーサル 3D フィーチャ表現

    人工知能の発展に伴い、人々は自動運転、仮想拡張現実、ロボットなど、周囲の物理環境を認識する必要性が高まっています。これらのすべてで、その後の機能を実現するには、周囲の 3D 環境の適切なモデリングと認識が必要です。決定。一方、NLP分野の急速な発展に伴い、大規模モデルの台頭により、人工知能のさまざまな分野における科学研究のパラダイムに革命が起きています。より優れたフレームワークがある場合、データのほとんどはデータ中心であり、十分なデータがあれば、モデルは優れた一般化機能を備えているようです。

    3Dビジョンの分野ではどうでしょうか?大規模な自然言語モデルに触発されて、独自の基礎モデルを設計し始めている分野が増えています。特に 3D 視覚の分野では、すべての 3D 視覚データをモデル化できるフレームワーク パラダイムが緊急に必要とされています。しかし、これは単純な問題ではなく、インテリジェント エージェントの場合、まず 2D 多視点画像や 3D レーダー点群などのさまざまなモダリティで 3D データを受信し、次にこれらの異種データをモデル化し、処理し、実行する必要があります。タスク。ここでの問題は、次の 2 つのサブ問題に分類できます。

    • 一般表現: さまざまなセンサーからの異種センシング データを処理し、一般的な特徴表現を学習する方法。

    • 統合モデリング:得られた共通表現に基づいてさまざまなタスク フレームワークを統合する方法。

この記事は、大規模な 3D 知覚モデルのボトルネックでもある統合エンコーダの最も重要なステップを解決することに焦点を当てており、一般的な表現を取得することによってのみ、次の統合モデリングを実行できます。

36243ca8a2f0b2617c5473994a970ea1.png

  • これまでの手法と問題点

    3D 認識データは主に多視点画像とレーダー点群に焦点を当てています。これら 2 つのデータの分布は大きく異なります。前者は 2D 密画像であり、後者は 3D 疎点群分布です。処理はより困難です。それを普遍的なフレームワークで実現します。以前の研究では、それぞれの分野でエンコーダーを使用してそれぞれのモダリティを逐次処理し、最終的に複雑で時間のかかる後処理融合ステップを使用して普遍的な特徴表現を取得していました。このアプローチでは実行速度が大幅に低下し、1 つのモデルで複数のモダリティを処理する必要性に対処できません。統合マルチモーダル エンコーダーは、さまざまなモダリティからの情報を調整して、ネットワークに、より本質的なシーン理解表現を強制的に学習させることもできます。

    この記事への寄稿

    • Transformer Block は、それぞれのモダリティ内での特徴学習のために提案されており、異なるモダリティの感覚データを共有パラメータと並行して処理できます。

    • 異なるセンサーからの異種データを効率的に融合するために、私たちは強力なクロスモーダル Transformer ブロックを設計しました。これは、2D 遠近法と 3D 幾何学的構造の関係を考慮することで、異なるモダリティの効率的な融合を実現します。

    • 上記の設計の助けを借りて、さまざまなモーダル データの処理に使用される、3D 認識のための真に統合されたマルチモーダル トランスフォーマー バックボーンを初めて提案します。

    • UniTR は、3D オブジェクト検出 (+1.1) や BEV マップ セグメンテーション (+12.0) などの複数の 3D 認識タスクにおける nuScenes テストで、より低い遅延で最高のパフォーマンスを達成しました。

UniTR の優れたパフォーマンスと斬新な構造が、3D 基盤モデルと一般的なフレームワークの開発を促進するための強力かつシンプルなベースラインとして機能することを願っています。


前提知識: DSVT

    3D知覚は主に多視点画像とLIDARという2つのモーダルデータに焦点を当てており、前者は広く研究されており、2D画像技術を直接適用することが可能であるが、後者はデータが疎であるため、以前に成熟した視覚技術を利用することが困難である。Transformer は、スパースな可変長データの処理に適していることはもちろん、モダリティに応じた柔軟な構造設計にも適していますが、大規模な点群データを Transformer で処理することは簡単ではありません。まず、DSVT と CVPR2023 の Efficient Point Cloud Transformer に関する作業を確認しましょう。UniTR は DSVT に基づいて構築されています。

ee07a8fb93e0e244ad178250133285d3.png

    Dynamic Sparse Voxel Transformer (DSVT) は、点群からの屋外 3D 認識のためのウィンドウベースの Transformer バックボーンです。スパース データを完全に並列的に効率的に処理するために、彼らは標準ウィンドウ アテンションを、ウィンドウ境界でサイズが等しい一連のローカル セット内で並列計算を実行するセルフ アテンション ストラテジーとして再定義しました。サブセット間の相互作用を可能にするために、DSVT は、連続するアテンション レイヤー間で 2 つの分割構成を交互に切り替える回転サブセット分割戦略を設計し、異なるボクセルのセットを異なるレイヤー間で分割できるようにしました。

    このようにして、元のスパース ウィンドウ アテンションは複数のセット アテンションに近似的に再構築され、これらのアテンションの計算は同じバッチ内で並行して処理できます。DSVT で使用されるセット パーティショニング構成は汎用的であり、さまざまなデータ構造やモダリティに柔軟に適応できることは注目に値します。

UniTRのフローチャート

fb1cc658b1916bb2b69fdf6d428e9505.png

この記事のメソッド

このセクションでは、さまざまなセンサー モダリティ (マルチビュー カメラと LIDAR) およびタスク (検出とセグメンテーション) を処理するための統合アーキテクチャについて説明します。上の画像は、このアーキテクチャを示しています。さまざまなセンサー入力が与えられると、モデルはまずモダリティ固有のトークナイザーを使用して、さまざまなモーダル入力を対応するトークン埋め込みに変換します。次に、モダリティに依存しない Transformer バックボーンを使用して、さまざまな下流の 3D 認識タスクに対してシングルモーダルおよびクロスモーダル表現の学習を並行して実行します。

  • 単一モーダル表現学習モジュール

    自動運転シナリオで 3 次元シーンを認識するには、マルチビュー画像やまばらな点群など、信頼性の高いマルチモーダル表現が必要です。表現が異なるため、従来の方法では通常、各モダリティの特徴を個別のエンコーダを通じてエンコードし、通常は順次処理されるため、推論速度が遅くなり、現実世界での応用が制限されていました。これらの問題に対処するために、すべてのモダリティ間でパラメータが共有される統一アーキテクチャを使用して、各センサーのイントラモーダル機能を並列処理することを提案します。

    • トークン化

      画像と点群が与えられると、各モダリティに対応する軽量トークナイザーは、入力生データを対応するトークン埋め込みに変換します。ここでは、一般的に使用される画像パッチ トークナイザーが画像に使用され、動的ボクセル特徴エンコーディングが点群に使用されます。

    • モダリティに関連する注意を設定する

      各モダリティ内の特徴学習を並行して効率的に学習するために、画像と点群のトークンを取得した後、

      bb858100c8436e504e3dd03b1a3023ee.png

      DSVT [1] のセグメンテーション方法に従って、各センサー データ内で動的サブセット セグメンテーションが実行され、各モダリティ内の対応するトークン インデックスが計算されます。

e71d78094de69774678c21cb5370a466.png

    最後に、セグメンテーションに従って、対応するトークンの特徴を取得し、モダリティ内での注意の設定が並行して実行されます。

16471944c55c4718a9bcc8b3bce3ff52.png

    注目に値するのは、上記モジュールのすべてのモダリティに対応する計算パラメータが共有されており、並列モーダル特徴学習が従来の従来の直列方式に比べてほぼ2倍高速となり、推論速度が大幅に向上していることです。

  • マルチモーダル表現学習モジュール

自動運転シナリオで複数のセンサーからの一貫性のない視点を持つ情報を効果的に統合するために、既存の方法では通常、センサーごとに個別のエンコーダーを設計し、複雑な後処理方法を通じて情報を融合する必要があり、これにより走行速度が大幅に低下します。枝があるとトレーニングの難易度が上がります。効果的なクロスモーダルインタラクションを可能にし、エンコーダーのフォワードパス中に 2D-3D の相補情報を最大限に活用するために、モダリティに依存しない 2 つの Transformer ブロックを設計しました。これら 2 つのブロックは、それぞれ 2D 画像と 3D Lidar 空間の異なるモダリティでの情報対話に使用され、ネットワークの深化に応じてマルチモーダル データを自動的に融合するように交互に構成されます。

  • 画像遠近空間

    意味的に豊富な 2D 画像の隣接関係を活用するには、まずカメラの内部パラメータと外部パラメータを使用して、すべての点群トークンを画像平面に投影し、次のように対応する 2D 位置に配置します。

    d63bab7b97c0ad18535f520ce0c8b90e.png

    画像と LIDAR トークンを 2D 画像遠近空間に統合した後、モダリティに依存しない DSVT 動的セット セグメンテーション手法を使用して、クロスモーダル 2D ローカル セットを生成しました。

    5f19adefed72d7b85ccc9e5963aa2b73.png

    このステップでは、モダリティに依存しないセグメンテーション手法を使用して、画像空間内の位置に従って複数のモダリティのトークンを同じ 2D ローカル セットにグループ化し、これらの混合モダリティのサブセットがいくつかの DSVT ブロックによって処理されます。

  • 三次元幾何学空間

    3D 空間でマルチモーダル入力を統合するには、画像パッチを 3D 空間に一意にマッピングするための効率的かつ堅牢なビュー投影が必要です。ただし、2D から 3D への変換は、各画像ピクセルに関連付けられた深度が不確実であるため、不適切な問題になります。以前の学習可能な深度推定器は許容可能な精度で深度画像を予測できますが、追加の計算集約型予測モジュールが必要であり、一般的なパフォーマンスが低いという問題があります。これらの制限を克服するために、MVP [2] に触発されて、後続の 3D セグメンテーションのために画像パッチを 3D 空間に効率的に変換する学習不可能で事前計算可能な方法を提案します。

    まず、3D 空間でいくつかの擬似点をサンプリングして生成し、次にすべての仮想擬似点を 2D 画像空間に投影して、対応する仮想画像座標を生成します。これらの仮想画像点を取得した後、各画像パッチの最も近い仮想画像点から奥行き推定値を取得できます。

    0819de3e7cdd92ba81019c8db54bdc94.png

    次に、推定された深度に従って画像トークンを 3D 空間に再マップし、2D 距離に基づいてオフセット フィーチャを生成します。

    6fa5f0bb194087e555858b07fd40cb3f.png

    このようにして、事前に計算されたビュー投影を通じて、3 次元空間内の画像と LIDAR トークンの配布空間を統合します。これは、推論中に完全に事前に計算してキャッシュすることができます。最後に、動的セット セグメンテーション モジュールを使用してクロスモーダル 3D ローカル セットを生成し、セット アテンション戦略を使用してさまざまなモダリティからの情報を融合します。

    211ca6b5aafda2f582af5709fb2cd4a6.png

    2D と 3D を考慮したクロスモーダル Transformer ブロックは、効果的であることが実験的に検証されており、意味的に豊富な 2D 隣接関係と幾何学的に豊富な 3D 隣接関係を有効に活用できます。さらに、クロスモーダルとシングルモーダルのトランスフォーマー ブロックは両方とも DSVT に基づいているため、この 2 つをロスレスで結合して真のマルチモーダル 3D ネットワークを形成できます。

実験結果

次のように、屋外マルチモーダル標準データセット NuScenes で一連の実験を実施し、モデルのパフォーマンスを検証しました。

88dab0ec926c535e98341ef1be512631.png

2a570010f96ef843829dd29063d3e5d2.png

図に示すように、私たちのモデルは、NuScenes 上の複数の 3D 認識タスクで良好なパフォーマンスを示し、以前の最良の方法をはるかに上回りました。より詳しい実験結果や分析については、原文を参照してください。

要約する

この論文では、単一のモデルと共有パラメータを使用して、さまざまなモダリティのデータを処理する、3D 認識のための統合されたマルチモーダル Transformer バックボーンを初めて提案します。イントラモーダルおよびインターモーダル表現学習用に特別に設計された Transformer ブロックを通じて、私たちの手法は標準の nuScenes データセット上の複数の 3D 認識タスクで最先端のパフォーマンスを実現し、大幅な改善を実現します。UniTR は、より効率的で汎用性の高い 3 次元認識大型モデルの開発を促進するための強固な基盤を提供できると考えられています。

[1] Wang, H.、Shi, C.、Shi, S.、Lei, M.、Wang, S.、He, D.、Schiele, B.、および Wang, L.、2023。Dsvt: 動的スパース ボクセル回転セットを備えたトランス。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録 pp. 13520-13529)。

[2] ying, T.、Zhou, X.、および Krähenbühl, P.、2021。マルチモーダル仮想点 3D 検出。 神経情報処理システムの進歩、  34、pp.16494-16507。

CVer WeChat パブリック アカウントのバックグラウンドで返信: UniTR、この論文の PDF とコードをダウンロードできます

クリックして入力 -> [3D 点群とトランスフォーマ] コミュニケーション グループ

ICCV/CVPR 2023 の論文とコードのダウンロード

 
  

バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
3D点云和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-3D点云或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如3D点云或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/133287011