少数ショット 3D ポイント クラウド セマンティック セグメンテーション
公式アカウント:EDPJ
目次
0. まとめ
取得が困難なラベル付きデータの制限を緩和し、一般化パフォーマンスを向上させるために、この論文では、注意に基づく注意認識マルチプロトタイプ変換少数ショット点群セマンティック セグメンテーションを提案します。特に、各カテゴリは、ラベル付けされたポイントの複雑な分布をモデル化するためのマルチプロトタイプによって表されます。次に、ラベル伝播を使用して、ラベル付きマルチ プロトタイプとラベルなしポイント間の関係、およびラベルなしポイント間の関係を調べます。次に、識別機能を学習するために、注意ベースの多層機能学習ネットワークが設計されています。これらの機能には、幾何学的な依存関係とポイント間の意味的な相関関係が含まれます。
0.1 キーワードと用語の説明
- 埋め込みネットワーク: サポート点群とクエリ点群の識別機能を学ぶ
- マルチプロトタイプ生成 (マルチプロトタイプ): すべての N+1 カテゴリ (N セマンティック カテゴリと 1 つの背景カテゴリ) に対して複数のプロトタイプを生成します。プロトタイプはクラスターの中心点に相当します。
- k-NN グラフの構築: セット間 (サポート-クエリ) およびセット内 (サポート-サポート、クエリ-クエリ) の関係を埋め込み空間にエンコードします。プロトタイプと点群間の距離に基づいて構築された関係グラフ。
- ラベルの伝播: ラベルのないクエリ ポイントによって生成された高密度領域に沿って、グラフ全体にラベルを広げます。
- cross-entropy loss 関数: すべてのクエリ ポイントの予測ラベルと実際のラベルの間の損失を計算します
1 はじめに
ポイント クラウド セマンティック セグメンテーション (ポイント クラウド セマンティック セグメンテーション) は、コンピューター ビジョンの基本的な問題です。目的は、シーンの 3D ポイント クラウド表現の各ポイントのオブジェクト カテゴリを推定することです。ただし、点群のセマンティック セグメンテーションは、点群の非構造化および順序付けされていない性質のため、課題です。現在の 3D セマンティック セグメンテーション テクノロジの優れたパフォーマンスは、大量のラベル付きデータに依存しており、これらのデータの収集には時間がかかり、困難です。さらに、これらのメソッドは閉集合の仮定に従います。つまり、トレーニング データとテスト データは同じラベル空間から取得されます。ただし、この仮定は現実的ではありません。トレーニング中に見られなかった多くの新しいカテゴリがあります。したがって、教師ありメソッドによって得られたモデルは、わずかなサンプルしかない新しいカテゴリではうまく一般化できません。
一部の研究 (自己教師あり、弱教師あり、半教師あり) は、ラベル付けされたデータの制限を緩和したいと考えていますが、依然として閉集合の仮定に従っているため、一般化能力は良くありません。少数ショット学習では、少数のサンプルのみを使用して、モデルが新しいカテゴリのタスクを完了できるようにします。この記事では、一般的に使用されるメタ学習戦略のエピソード トレーニングを採用しています。つまり、1 つのセグメンテーション タスクだけで学習するのではなく、同様の少数ショット タスクの分布について学習します。各少数ショット タスクは、いくつかのラベル付きサンプル (サポート セット) といくつかのラベルなしサンプル (クエリ セット) で構成され、モデルはサポートから学習した知識を使用してクエリをセグメント化します。少数ショットのトレーニング タスクとテスト タスクの一貫性により、モデルは一般化能力が高く、少数の供給サンプルをオーバーフィットすることは容易ではありません。
私たちのアプローチは、変換推論によるセグメンテーションのために、少数ショット制約の下で抽出された識別機能に基づいて、サポート セットのポイント クラウド内のポイントの複雑な分布をモデル化することです。このペーパーでは、プロトタイプ ネットワーク (プロトタイプ ネットワーク) も使用します。カテゴリは、サポートされているカテゴリのすべてのラベル付きサンプルの埋め込みの平均であるプロトタイプによって表されます。実際のデータ分布は非常に複雑な場合が多いため、この単一モードのアプローチは適切ではありません。さらに、セマンティック カテゴリ内では、ポイントの空間構造も非常に複雑です。したがって、このホワイト ペーパーでは、カテゴリごとに複数のプロトタイプを使用することを提案します。これにより、複雑な分布をより適切にモデル化できます。この論文では、注意を使用して、ポイント間の空間的な依存関係と意味的な相関関係を捉えます。次に、学習された特徴空間内の複数のプロトタイプを使用して、伝達的な方法でセグメンテーションが実行されます。従来のプロトタイプ ネットワークは、ユークリッド距離を計算することにより、ラベルのないインスタンスとカテゴリ プロトタイプを照合します. この論文では、トランスダクティブ推論を使用します: ラベルのないクエリ ポイントと複数のプロトタイプの間の関係を考慮するだけでなく、ラベルのないクエリ ポイント間の関係も調査します.
2. 関連作品
3D セマンティック セグメンテーション. ディープラーニングに基づく研究のほとんどは、教師ありアプローチを使用しています。
PointNet は、変形された表現 (ボクセル グリッド、マルチビュー画像など)ではなく、生の点群をセグメント化するように設計された最初のエンド ツー エンド ニューラル ネットワークです。シンプルで効果的ですが、PointNet は隣接ポイントの重要なローカル情報を無視します。
- 点群は、3 次元空間 (xyz 座標) 内の点の集まりです。
- ボクセルは 3D 空間のピクセルです。量子化された固定サイズの点群。各セルは固定サイズで離散座標です。
- メッシュはパッチの集まりです。
- マルチビュー表現は、シミュレートされたさまざまな視点からレンダリングされた 2D イメージのコレクションです。
DGCNN は、ローカル構造をキャプチャできる EdgeConv モジュールを設計しました。この論文では、DGCNNをバックボーンネットワークとして使用して、局所的な幾何学的特徴と意味的特徴を特徴抽出器として抽出します。
数ショット学習。指標ベースの方法では、目に見えないカテゴリのサンプルのラベルを直接推測できます。中心的なアイデアは、優れた測定関数を学習し、ラベルのないデータとラベルの付いたデータの類似性に基づいて分類することです。マッチング ネットワークとプロトタイプ ネットワークは、ディープ ネットワークを使用してサポート セットとクエリ セットを埋め込み空間にマッピングする 2 つの代表的な測定ベースの方法です。マッチング ネットワークはすべての供給サンプルを使用してカテゴリを表し、プロトタイプ ネットワークは供給サンプルの平均値を使用してカテゴリを表します。これらは両極端です。
少数ショットの画像セグメンテーション。ほとんどの既存のメソッドは、サポートとクエリ間の 1 対多のマッチングの問題をメトリック ベースのアプローチで処理し、サポートの各カテゴリはグローバル ベクトルとして表されます。
対照的に、Zhang はこのタスクを多対多のマッチング問題と見なしています。サポートはグラフとして表され、グラフ内の各要素はノードです。ただし、この方法は CNN 構造に基づいており、点群には適していません。点群の構造が不規則だからです。また、点群と画像の埋め込み空間の性質が異なります。
3. 方法論
3.1 問題定義
各少数ショット タスク (エピソード) は、N 方向の K ショット ポイント クラウド セマンティック セグメンテーション タスクです。各エピソードでは、 として表される特定の供給セットには合計 N 個のカテゴリがあり、各カテゴリには K 個のラベル付きサポート ポイント クラウドとそれに対応するバイナリ マスク (マスク)があります。各ポイント クラウドにはM ポイントが含まれます: 座標情報、追加機能(例: 色)。T クエリ ポイント クラウドとそれに対応するラベルを含む、として示されるクエリ セットもあります。
N 方向 K ショット ポイント クラウド セマンティック セグメンテーションの目標: S ベースのポイント クラウドについて、ラベル分布を予測するモデルを学習します。
どこで の 最適なパラメータです。一連のトレーニングカテゴリからサンプリングされたすべてのエピソードを含む、トレーニング セットを表します。損失関数を示します (3.2.4 で定義されます)。
3.2 注意に基づくマルチプロトタイプ変換推論
上の図は、この論文における注意ベースのマルチプロトタイプ変換推論です。次の 5 つの要素が含まれています。
- 埋め込みネットワーク: サポート点群とクエリ点群の識別機能を学ぶ
- 複数のプロトタイプ生成: すべての N+1 カテゴリ (N セマンティック カテゴリと 1 つの背景カテゴリ) に対して複数のプロトタイプを生成します。
- k-NN グラフの構築: コレクション (サポート-クエリ) とコレクション (サポート-サポート、クエリ-クエリ) の間の関係を埋め込み空間にエンコードします。
- ラベルの伝播: ラベルのないクエリ ポイントによって生成された高密度領域に沿って、グラフ全体にラベルを広げます。
- cross-entropy loss 関数: すべてのクエリ ポイントの予測ラベルと実際のラベルの間の損失を計算します
3.2.1 埋め込みネットワーク
このネットワークは、このモデルの最も重要な部分です。これは、マルチプロトタイプの生成と k-NN グラフの構築の両方が、学習された埋め込み空間に依存するためです。スペースには、次の特性が必要です。
- ローカル コンテキストに基づくエンコード ポイントの幾何学的構造
- グローバルコンテキストに基づくコードポイントの意味情報と意味相関
- さまざまな数ショットのタスクにすばやく適応できます
著者は、3 レベルの特徴 (ローカル幾何学的特徴、グローバル セマンティック特徴、メトリック適応特徴) を学習するために、注意ベースのマルチレベル特徴学習ネットワークを設計しました。特に、埋め込みネットワークは、特徴抽出器、注意学習器、メトリック学習器の 3 つのモジュールで構成されています。
この論文では、動的グラフ CNN 構造を持つ DGCNN を特徴抽出器のバックボーンとして使用して、局所的な幾何学的特徴 (最初の EdgeConv レイヤーの出力) と意味的特徴 (特徴抽出器の出力) を生成します。
グローバル コンテキストにおける点の意味的関連性をさらに調査するために、著者は、生成された意味的特徴に対して自己注意ネットワーク (SAN) を使用します。SAN は、ポイント フィーチャを、対応するポイント クラウドのグローバル コンテキスト情報に柔軟かつ適応的な方法で集約します。下の図は、SAN の構造です。
著者はまた、メトリック学習器を紹介します。これは、埋め込み空間をさまざまな少数ショット タスクにより速く適応させることができる、多くの多層パーセプトロン層です。メトリック学習器は、すべてのサポートおよびクエリ セット ポイントの特徴を多様体空間にマッピングします。このマニホールド空間では、一般的な距離関数 (ユークリッド距離やコサイン距離など) をメトリック ポイントの性別の類似性に直接使用できます。
最後に、3 つの層によって学習された特徴が、埋め込みネットワークの出力として連結されます。
3.2.2 マルチプロトタイプ生成
サポート セット内の N+1 カテゴリのそれぞれについて、複雑なデータ分布をモデル化するために、エピソード内の少数のラベル付きサンプルから n 個のプロトタイプが生成されます。著者は、生成プロセスをクラスタリングの問題と見なしています。サポート ポイントを複数のプロトタイプに集約する方法は多数ありますが、このホワイト ペーパーでは、学習した埋め込み空間、サンプリング シード ポイント、およびポイントからシードへの割り当てに基づいて、最も単純な戦略を選択します。特に、埋込み空間に基づいて、最遠点サンプリング法を使用して、サポート ポイントのカテゴリから n 個の点をシード点としてサンプリングします。直観的に、埋め込み空間が十分に学習されている場合、この空間の最も遠い点はカテゴリのさまざまな側面を表すことができます。サンプリングされたシードとカテゴリ c に属するすべてのサポート ポイントをそれぞれ表すとします。作成者は、ポイントからシードまでの距離を計算し、各ポイントに最も近いシードのインデックスをポイントに割り当てます。クラス c のマルチプロトタイプ表現は次のとおりです。
その中で、n 個のセットに分けられます。ポイントはシードに割り当てられます。
3.2.3 伝達的推論
著者は、変換ラベル伝搬を使用してグラフを作成し、次にグラフ内でラベルをランダムに伝搬します。
k-NN グラフの構築。有効性を計算するために、著者は全結合グラフの代わりに k 最近傍 (NN) グラフを使用します。特に、複数のプロトタイプとクエリ ポイントがグラフのノードとして使用され、グラフのサイズは. 埋め込み空間の各ノードとその k 個の最近傍ノード間のガウス類似度を計算することにより、作成者は疎な関係行列を構築します。
その中で、ノードの特性を表し、2 つのノード間の距離の分散を表します。、行列が非負対称であることを保証します。標準化された W が取得されます。ここで、D は、対角上の値が W の対応する行の値の合計である対角行列です。さらに、ラベル マトリックス を定義します。ここで、ラベル付きプロトタイプに対応する行はワンホット リアル ラベルであり、残りは 0 です。
ラベルの広がり。S と Y が与えられると、ラベル伝搬は、次の式に基づいてグラフ内のラベルを繰り返し拡散します。
ここで、 は反復 t で予測されたラベル分布を示します。隣接ノードと元のラベルから渡される情報の量を制御するパラメーターです。シーケンスは閉形式の結果に収束します。
3.2.4 損失関数
決定されると、 として示される T 個のクエリ点群に対応する予測が最初に取得されます。次に、softmax で正規化します。
最後に、クロス エントロピー損失を 実数ラベルで計算します。
モデルのパラメータはどこにありますか。より正確には、組み込みネットワークとマルチプロトタイプ生成および伝達的推論操作の複合機能です。
4.実験
4.1 データセットとセットアップ
データセット。S3DIS、ScanNet の 2 つのデータセットで評価。
セットアップ。各データセットは、カテゴリ名の頭文字に基づいて 2 つのサブセットに分割されました。2 つのサブセットで相互検証を使用する方法: 1 つはトレーニング セットとして、もう 1 つは検証セットとして。元の部屋のポイントの数が非常に多いため、1m*1m のスライディング ウィンドウを使用して、部屋を xy 平面上の重複しない小さなブロックに分割し、各小さなブロックで M=2048 ポイントをランダムにサンプリングします。
4.2 実装の詳細
4.3 ベースライン
この記事では、比較のために 4 つのベースラインを設定します。
微調整 (FT)。事前トレーニング済みのセグメンテーション ネットワークをベースラインのバックボーンとして使用します。サポート セットからサンプリングして微調整し、クエリ セットでテストします。過剰適合を避けるために、最後の 3 つの MLP レイヤーのみを微調整します。
プロトタイプ ネットワーク (ProtoNet)。全体は、この論文で使用されている埋め込みネットワークと同じですが、違いは、SAN が線形マップに置き換えられていることと、各カテゴリに 1 つのプロトタイプしかないことです。
プロトタイプ ネットワーク (AttProtoNet) に注目してください。この記事で使用する埋め込みネットワークと同じです。
複数プロトタイプ変換推論 (MPTI)。全体は、この論文で使用されているネットワークと同じですが、違いは、SAN が線形マップに置き換えられていることです。
4.4 結果と分析
使用されるメトリクス: 平均 Interaction over Union (平均 IoU)。
ベースラインとの比較。この論文は、より良いパフォーマンスを得るために研究しています。
多層機能によるアブレーション実験。
上の図は、さまざまな機能がパフォーマンスにどのように寄与するかを示しています。明らかに、グローバル セマンティック フィーチャとメトリック適応フィーチャは、ローカル ジオメトリック フィーチャよりもパフォーマンスに大きな影響を与えます。
ハイパーパラメータの効果。
上の図に示すように、各カテゴリのプロトタイプの数 n を増やすとパフォーマンスが向上しますが、プロトタイプが多すぎるとオーバーフィッティングによりパフォーマンスに影響します。
k は kNN グラフの作成に使用され、最適な k は 200 です。
3 番目のパラメーターはガウス類似度であり、関係マトリックスの構築に使用されます。異なるデータセットには異なる最適値があります。
4.5 定量結果
上の図は、この論文の方法と、データセット S3DIS の 2 方向 1 ショット ポイント クラウド セマンティック セグメンテーション タスクのリアル ラベルおよび ProtoNet の結果との比較です。凡例は上部にあり、さまざまな色がさまざまなオブジェクトに対応しています。
上の図は、データセット ScanNet、2-way 1-shot ポイント クラウド セマンティック セグメンテーション タスク、この論文の方法と実際のラベルおよび ProtoNet での結果との比較です。凡例は上部にあり、さまざまな色がさまざまなオブジェクトに対応しています。
5. 参考
Zhao, N., Chua, TS, & Lee, GH (2021). 少数ショットの 3D 点群セマンティック セグメンテーション。IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8873-8882)の議事録 。