NeurIPS 2023 | PointGPT: 点群と GPT が衝突します。点群の自己回帰生成事前トレーニング

下のカードをクリックして「CVer」公開アカウントをフォローしてください

AI/CVの重要な情報をいち早くお届け

クリックして入力 -> [3D 点群とトランスフォーマ] コミュニケーション グループ

CVer WeChat パブリック アカウントのバックグラウンドで返信: PointGPT、この論文の PDF とコードをダウンロードできます

3D 点群は、自動運転、ロボット工学、拡張現実などのさまざまなアプリケーションで大きな可能性を示します。2D 画像の通常のピクセルとは異なり、3D 点の配置は不規則であるため、よく研究された 2D ネットワークを 3D データの処理に直接採用することが妨げられます。したがって、3D 点群データに適した高度な方法を検討することが不可欠です。ただし、現在の 3D 中心の手法では、多くの場合、完全に教師付きでゼロからトレーニングする必要があり、これには多大な労力を要する手動のアノテーションが必要です。自然言語処理 (NLP) と画像分析の分野では、潜在表現を取得するためのアノテーションに依存しない方法として、自己教師あり学習 (SSL) が登場しました。これらの手法の中でも、生成事前学習トランスフォーマー (GPT) は、自己回帰的な方法でデータを予測することをタスクとする代表的な特徴の学習に特に効果的です。その優れたパフォーマンスにより、GPT を点群に適応させて効果的な 3D 表現学習器として機能させることができるのかという疑問が当然生じます。

d4612d92ea297be09996d3b5216e06b7.png

点群からの自動回帰生成の事前トレーニング

ポイントGPT

 論文解釈

まとめ

この論文では、PointGPT と呼ばれる手法を紹介します。これは、GPT の概念を点群データに拡張し、点群データの不規則性、情報密度の低さ、タスク間隔といった課題を解決します。この論文では、Transformer モデルを事前トレーニングするための点群自己回帰生成タスクを提案しています。この方法では、入力点群を複数の点パッチにセグメント化し、それらを空間的近接性に基づいて順序付けられたシーケンスに配置します。次に、エクストラクター/ジェネレーター ベースの Transformer デコーダー (二重マスキング戦略を使用) が、前のパッチに条件付けされた潜在表現を学習し、自己回帰的に次のパッチを予測します。このスケーラブルなアプローチにより、適切に一般化され、さまざまな下流タスクで最先端のパフォーマンスを実現する大容量モデルを学習できます。具体的には、このメソッドは ModelNet40 データセットで 94.9% の分類精度、ScanObjectNN データセットで 93.4% の分類精度を達成し、他のすべての Transformer モデルを上回りました。さらに、このメソッドは 4 つの少数ショット学習ベンチマークで新しい最先端の精度を達成します。

論文リンク: https://arxiv.org/pdf/2305.11487.pdf

コードリンク: https://github.com/CGuangyan-BIT/PointGPT

論文寄稿

1. PointGPT という名前の新しい GPT モデルが、点群自己教師あり学習 (SSL) 用に提案されています。PointGPT は、点群の自己回帰を利用して位置情報漏洩の問題を軽減しながらタスクを生成し、単一モーダルの自己教師あり学習手法の中で優れたパフォーマンスを発揮します。

2. 効果的な生成タスクを作成するための二重マスキング戦略を提案し、学習された表現の意味レベルを強化するために抽出と生成の Transformer アーキテクチャを導入します。これらの設計により、ダウンストリーム タスクにおける PointGPT のパフォーマンスが向上します。

3. 事前トレーニング後のステージが導入され、大容量のモデル トレーニングを促進するために、より大規模なデータセットが収集されます。PointGPT を活用することで、当社の拡張モデルはさまざまなダウンストリーム タスクで最先端のパフォーマンスを実現します。


全体的な枠組み

PointGPT メソッドの概略図を図 1 に示します。入力点群は点パッチに分割され、空間的近接性に応じて順序付けられたシーケンスに配置されます。このシーケンスは Transformer デコーダに入力され、以前に予測されたブロックに基づいて次のブロックを予測します。この自己回帰アプローチにより、モデルはポイント ブロックを徐々に生成できるようになり、モデルは以前に生成されたポイント ブロックを使用して次のポイント ブロックを予測できます。このように、PointGPTの手法は、点ブロックを具体的に指定することなく予測が可能であり、位置情報漏洩の問題も回避できるため、モデルの汎化能力が向上する。この方法の利点は、点群データの不規則性を処理でき、さまざまな下流タスクで優れたパフォーマンスを発揮できることです。

ea21b8332ae855f50f7e8da4b832e560.png

図 2 は、事前トレーニング段階における PointGPT の全体的なプロセスを示しています。

25424126d2224712b4cefae024d4de4a.png

1. 点群シーケンスモジュール

PointGPT の事前トレーニング プロセスには、点群シーケンス モジュールを使用して点ブロックの順序付けされたシーケンスを構築すること、抽出器が点ブロックの潜在表現を学習すること、およびジェネレータが点ブロックのシーケンスを自己回帰的に生成することが含まれます。トレーニング後の段階では、ジェネレーターは破棄され、エクストラクターは学習した表現を下流のタスクに利用します。このプロセスは、自己回帰生成タスクを通じて点群データのフィーチャ表現を学習し、後続のタスクにより優れた表現機能を提供することを目的としています。

点ブロックのセグメンテーション: この段階では、点群を不規則な点ブロックに分割します。点群を大きなサブセットに分割することにより、点群の構造をより小さな部分に分割して、処理を向上させることができます。点群の固有のまばらさと無秩序を考慮して、入力点群は最遠点サンプリング (FPS) および K 最近傍 (KNN) アルゴリズムを通じて処理され、中心点と点パッチが取得されます。

01ad3b0e41f091854eb0959eebc11e9b.png

並べ替え: 点群の固有の無秩序を考慮して、取得された点パッチは中心点に基づいて一貫したシーケンスに編成されます。具体的には、モートン コーディングを使用して中心点の座標を 1 次元空間にエンコードし、次にソートしてこれらの中心点の順序を決定します9a94e8f1d7946f46554320264ce20923.png次に、ドットブロックを同じ順序で配置します。

634c03221648cbc3d77c34a2858e18ab.png

埋め込み: PointGPT では、埋め込みステップを使用して、各ポイント ブロックの豊富な幾何学的情報を抽出します。ソートされたポイント ブロックのシーケンスは、その後の事前トレーニングとタスク学習のためにモデルに埋め込まれます。埋め込みにより、ポイント パッチの幾何学的情報を、モデルが理解して処理できるベクトル表現に変換できます。ここでは、幾何学的情報を抽出するために PointNet ネットワークが使用されます。

b34ceb8e9430c9d1130f4f085243281c.png

2. 抽出器と生成器の変圧器のアーキテクチャ

ダブル マスキング戦略: Transformer デコーダーの基本的なマスキング戦略により、各トークンは以前のすべてのポイント トークンから情報を受け取ることができます。有用な表現の学習をさらに促進するために、事前トレーニング中に各トークンによって参照される先行トークンの特定の割合をさらにマスクする二重マスキング戦略が提案されています。結果として得られる二重マスクは5282e9a99f48e3f7bf74f03296375302.png図 2(b) に示されており、二重マスク戦略による自己注意プロセスは次のように表現できます。

b6bc8e6886adedd5cb80449fe058e3a9.png

このうち、Q、K、V は、D チャネルの重みが異なる T でエンコードされます。d28b5fe24dabd1d64563e028fa2f261d.pngマスクされた位置を 0 に設定し、マスクされていない位置を 1 に設定します。

エクストラクター: エクストラクターは完全に Transformer デコーダー ブロックで構成され、二重マスキング戦略を採用して潜在表現を取得します9b0fdb17877c9de00245c7d7f8695544.pngソートされた中心点の座標は、正弦位置エンコーディング (PE) を使用して絶対位置エンコーディング ( APE ) にマッピングされます。

867792ded101f4f815374e3ee084bd77.png

ジェネレーター: ジェネレーターはエクストラクターと同様のアーキテクチャを持っていますが、含まれる Transformer ブロックの数は少なくなります。抽出されたものを入力として受け取りfbba9fefcb68a730a0e528c0a6adb2b9.png、後続の予測ヘッドのポイントを生成します647f343c081985fb7893cad5d0b3164b.pngただし、中心点のサンプリング プロセスは点ブロックの順序に影響を与える可能性があるため、後続の点ブロックを予測するときに不確実性が生じます。これにより、モデルが意味のある点群表現を効果的に学習することが困難になります。この問題を解決するために、中心点間の相対方向ヒント ( RDP )がジェネレーターに追加され、マスクされたポイント ブロックと全体のポイントの位置を公開することなく、後続のポイント ブロックに対する方向情報をヒントとして提供します。雲オブジェクトの形状。

a72641e93a5b16ab68003cbc8f46b209.png

0a60a057d429ce9ec495bd55aed7381d.png

b892f7230c61b624b473a8d5567f41d6.png

予測ヘッド:予測ヘッドは、座標空間で後続のポイント ブロックを予測するために使用されます。これは、2 つの完全接続 (FC) 層と (ReLU) 活性化関数を含む 2 層の多層パーセプトロン (MLP) で構成されます。予測ヘッドは7e7d5cb8ab14b23f7aa6​​e4314185f2f6.pngトークンをベクトル空間に投影します。ここで、出力チャネルの数は点のブロック内の座標の総数に等しくなります。これらのベクトルは、予測された点ブロックに再編成されます。

d0687939e832a50a997c4966368dd3ee.png

3. 中間の微調整と事前トレーニング後の段階

従来の点群自己教師あり学習 (SSL) 手法では、ターゲット データセット上の事前トレーニング済みモデルを直接微調整しますが、セマンティックな監視情報が限られているため、潜在的な過剰適合の問題が発生する可能性があります。この問題を軽減し、大容量モデルのトレーニングを容易にするために、PointGPT は中間微調整戦略を採用し、トレーニング後の段階を導入します。この段階では、複数のラベル付き点群データセットを収集して位置合わせするラベル付きハイブリッド データセットを使用してトレーニングが実行されます。このデータセットに対して教師ありトレーニングを実行することにより、複数のソースからのセマンティック情報を効果的にマージできます。その後、ターゲット データセットに対して微調整が実行され、学習された一般的な意味論的な知識がタスク固有の知識に変換されます。この中間微調整および事前トレーニング段階の戦略は、モデルの汎化能力を向上させ、潜在的な過剰適合問題を回避し、多様なセマンティック情報を利用してモデルのパフォーマンスを向上させるのに役立ちます。


実験結果

さまざまなダウンストリーム タスクでの PointGPT のパフォーマンスを実証するために、この論文では、実世界およびクリーンなオブジェクト データセットでのオブジェクト分類、少数ショット学習、パーツ セグメンテーションなどの一連の実験を実施します。PointGPT のパフォーマンスを評価するために、3 つの異なるモデル容量が使用されます: PointGPT-S (ShapeNet データセットで事前トレーニングされますが、事前トレーニング後のステージはありません)、PointGPT-B および PointGPT-L (収集されたデータセットで実行されます)混合データセット トレーニング前フェーズと事前トレーニング後のフェーズ。

PointGPT-S は、その後の事前トレーニングなしで、ShapeNet データセット上で事前トレーニングされます。これは、以前の方法と直接比較するために、以前の SSL 方法と一致しています。さらに、大容量の PointGPT モデル (PointGPT-B および PointGPT-L) のトレーニングをサポートするために、2 つのデータセットが収集されました: (1) 自己教師あり事前トレーニング用のラベルなしハイブリッド データセット (UHD)、さまざまなデータから一元的に収集屋内シーン用の ShapeNet や S3DIS、屋外シーン用の Semantic3D などの点群。UHD には、合計約 300,000 の点群が含まれています。(2) 教師ありポストトレーニング用のラベル付きハイブリッド データセット (LHD) は、合計 87 のカテゴリと約 200,000 の点群で、さまざまなデータセットのラベル セマンティクスを調整します。

4f71605e7deed7f5a5aace24144586fb.png

354151fbf8f22a0538f7fefe7d67fbbe.png

a9b9edd1314aa4821339aef6d72429b0.png

2102a2af675908c82f8f56c1fac221a6.png


結論と考察

この論文では、GPT の概念を点群ドメインに拡張し、点群の無秩序な性質、情報密度の違い、生成タスクと下流タスク間のギャップなどの課題を解決する新しい手法である PointGPT を紹介します。最近提案された自己監視型オクルージョン ポイント モデリング方法とは異なり、私たちの方法はオブジェクト全体の形状の漏洩を回避し、より優れた一般化能力を備えています。さらに、このペーパーでは、大容量モデルのトレーニング プロセスを調査し、トレーニング前およびトレーニング後のフェーズの混合データセットを収集します。この論文の手法は、さまざまなタスクに対するその有効性と強力な一般化能力を検証しており、同様のモデル能力を持つ単一モーダル手法の中で PointGPT が優れたパフォーマンスを発揮することを示しています。さらに、私たちの大規模モデルは、クロスモーダル情報や教師モデルを介さずに、さまざまな下流タスクで SOTA パフォーマンスを実現します。PointGPT は優れたパフォーマンスを示していますが、調査対象のデータとモデルのサイズは、NLP や画像処理の分野のものよりも桁違いに小さいです。

CVer WeChat パブリック アカウントのバックグラウンドで返信: PointGPT、この論文の PDF とコードをダウンロードできます

クリックして入力 -> [3D 点群とトランスフォーマ] コミュニケーション グループ

ICCV/CVPR 2023 の論文とコードのダウンロード

バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます

バックエンド応答: ICCV2 023、 ICCV 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

 
  
3D点云交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-3D点云 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注:研究方向+地点+学校/公司+昵称(如3D点云+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/133421526