[3D 点群] 弱教師点群セグメンテーション (論文解釈 CVPR2020)


タイトル: 弱い教師ありセマンティック ポイント クラウド セグメンテーション: 10 倍少ないラベルに
向け


1. まとめ

この作業では、ラベル付けする点のごく一部のみを必要とする、弱く監視された点群セグメンテーション方法を提案します。これは、勾配近似を学習し、追加の空間および色の平滑化制約を活用することによって実現されます実験は、弱い監督の程度が異なる 3 つの公開データセットで実施されます。

1.はじめに

教師ありメソッドは [19,20,33,12,29] (2 つのタスク: 点群形状分類と点群セグメンテーション)

[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, and Baoquan Chen. Pointcnn: Convolution on x-transformed points. In NIPS, 2018. [19] Charles R. Qi, Hao Su, Kaichun Mo
, and Leonidas J. Guibas. PointNet: Deep learning on point sets for 3D classification and segmentation. In CVPR, 2017.
[20] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: ポイントでの深い階層的特徴学習メートル空間で設定. NIPS, ページ 5099–5108,2017.
[29] Lei Wang, Yuchun Huang, Yaolin Hou, Shenman Zhang, and Jie Shan. 点群セマンティック セグメンテーションのグラフ アテンション コンボリューション. CVPR, 2019.
[33] Yue Wang、Yongbin Sun、Ziwei Liu、Sanjay E Sarma、Michael M Bronstein、および Justin M Solomon。点群で学習するための Dynamicgraph cnn。ACM Transactions on Graphics (TOG)、2019 年。

強力なコンテキスト モデリング機能を備えた弱い教師付きセグメンテーションを有効にし、一般的な 3D ポイント クラウド データを処理するために、最先端のディープ ニューラル ネットワークを構築してポイント クラウド機能の埋め込みを学習することを選択しました。部分的にラベル付けされたポイント クラウド データが与えられた場合、ラベル付けされたポイントのみにペナルティを課す不完全な監視ブランチを使用します。これは、完全な教師なしで学習した勾配が、完全な教師のサンプリング近似と見なすことができるためです。セクション 3.2 では、近似勾配が分布の真の勾配に収束し、ギャップが正規分布し、分散がサンプリング ポイントの数に反比例することを分析しました。したがって、ラベル付けされた点が十分にある場合、近似勾配は真の勾配に近くなります結論は、サンプルごとに少ないマーカーでより多くのサンプルに広く注釈を付ける方が、より多くの (または完全に) マーカーで少数のサンプルを集中的にラベル付けするよりも常に優れているということです。

上記の方法は、ラベル付けされたポイントにのみ制約を課すため、ラベル付けされていないポイントに直交する 3 つの方向に追加の制約を課します。

1. 最初に、マルチインスタンス学習 [35, 7] と同様の方法で点群サンプル レベルのクロス エントロピー損失を定義する追加の不正確な監視ブランチを導入します。その目的は、負のクラスに関して任意のポイントのアクティブ化を抑制することです。
2. 次に、ランダムな面内回転とフリップでトレーニング サンプルを拡張することにより、シャム自己教師ありブランチを導入し、元の予測と拡張されたポイントごとの予測が一致するようにします。
3. 最後に、セマンティック パーツ/オブジェクトは通常、ローカル スペースとカラー スペースで連続していることを確認します。

この目的のために、同様の色を持つ空間的に隣接するポイントが同じ予測を持つようにするために、空間的および色の滑らかさの制約を提案します。このような制約は、図 [38] のラベル伝搬と同様のソフトな制約を解くことによって、推論段階で適用できます。提案するネットワークを図 2 に示します。
*ここに画像の説明を挿入
当社のネットワーク アーキテクチャは、監視が弱い点群のセグメンテーションに使用されます。赤い線は、バックプロパゲーション フローを表します。

2. 貢献の4つのポイント

  1. これは、ディープ ラーニングのコンテキストで弱教師付き点群セグメンテーションを研究した最初の研究です。
  2. 弱い監督の成功の説明を提供し、固定ラベル予算の下での注釈戦略への洞察を提供します
  3. ラベル付けされていないデータをさらに制約するために、不正確な監視自己監視、および空間と色の滑らかさに基づく 3 つの追加の損失を採用します。
  4. 実験は、将来の研究を促進するためのベンチマークとして 3 つの公開データセットで行われます。

2. 関連作品

具体的には、不完全な監督と不正確な監督の 2 種類の弱い監督に焦点を当てます。

1. 不完全な (半教師あり) 学習

これは、文献では半教師あり学習とも呼ばれます [38, 3, 17, 2, 10, 27, 8]。いくつかの注釈: いくつかの境界ボックスまたはピクセルが画像セグメンテーション タスク [17, 2] 用にラベル付けされているか、いくつかのノードがグラフ推論用にラベル付けされています [27]。成功は、多くの場合、グラフ多様体 [38、3、27]、空間および色の連続性 [17、2] などを含む、問題固有の仮定の活用に起因します。別の作業方法は、ノイズ [22]、回転 [10]、または敵対的トレーニング [15] の追加など、元のデータと変更されたデータとの間の一貫性などの追加の制約を導入することによるアンサンブル学習に基づいています。

この作業では、モデルをさらに正則化するために追加の空間制約が再分配される最先端のディープ ニューラル ネットワークを活用します。したがって、ディープ モデルと幾何学的事前分布によって提供される空間相関を活用します。

2. 不正確な注釈

彼らの目標は画像セグメンテーション タスクの画像レベルごとの注釈 [9、24] からピクセルごとの予測を推測することです。Class Activation Maps (CAM) [35] は、差別に基づく監督に対する CNN の注意を強調するために提案されています。これは、弱い教師ありセグメンテーション [9、32] の優れた事前不正確な監視は、多くの場合、不完全な監視を補完するものため、半教師付き画像セグメンテーションを改善するためにも使用されます [2]。この作業では、不完全な監督を補完するものとして、不正確な監督を紹介します。

3. 点群解析

PointNet [19]は、多層パーセプトロン (mlps) をカスケードすることによって 3D 点群の特徴を学習する点群の分類とセグメンテーションです; これらの研究 [20, 33, 12, 30, 11]ローカル ジオメトリを活用する製品を提案しています。点群解析のすべてのタスクの中で, セマンティック セグメンテーションがあります. ロボティクスでの応用の可能性があるため, 既存の作業は点レベルでの分類子の学習に依存しています [19]. ただし、このパラダイムは徹底的なポイント レベルのラベリングを必要とし、うまくスケーリングできません。また、[26] はトレーニング目標に空間平滑化正則化を追加することを提案していることにも注意してください。[5] は、CRF による予測を改良することを提案しました。ただし、どちらの仕事にも適切な監督が必要です。

[11] ロイク・ランドリューとマルティン・シモノフスキー。スーパーポイント グラフによる大規模な点群セマンティック セグメンテーション。[12]ヤンヤン・
リー、ルイ・ブ、ミンチャオ・サン、ウェイ・ウー、シンハン・ディ、バオクアン・チェン。Pointcnn: x 変換されたポイントの畳み込み。[20] Charles Ruizhongtai Qi、Li Yi 、
Hao Su、Leonidas J Guibas。Pointnet++: メトリック空間のポイント セットでの深い階層的特徴学習。NIPS、ページ 5099–5108、2017 年
深層パラメトリック連続畳み込みニューラル ネットワーク。[33] Yue Wang、Yongbin Sun、Ziwei Liu、Sanjay E Sarma 、
Michael M Bronstein、Justin M Solomon。点群で学習するための動的グラフ cnn。ACM Transactions on Graphics (TOG)、2019 年。

3. 方法論

1.点群符号化ネットワーク(エンコーダ)

入力 b 番目の点群は次のように表すことができます> コードは次のとおりです (例):N は点群の数、F は特徴の次元 (xyzrgb) です。セマンティック セグメンテーション ラベルは として表すことができここに画像の説明を挿入、ワンホット エンコーディングは次のとおりですここに画像の説明を挿入ニューラル ネットワークの後、点群の特徴は になりますここに画像の説明を挿入代替のエンコード ネットワークは次のとおりです: [19, 20, 12] (後者の 2 つは pointnet++ です)

[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, and Baoquan Chen. Pointcnn: x 変換点の畳み込み. NIPS, 2018.

フォローアップ実験で性能比較があります。

2. 不完全な監督ブランチ

点群サンプル {X_b} で、少数の点のみが真としてマークされていると仮定し、バイナリ マスクは次のように表現されます: M∈{0,1}_B×N、つまり、マークされた点は 1 であり、 0 はそれ以外です。ラベル付きポイントのソフト最大クロス エントロピー損失は次のように定義されます。
ここに画像の説明を挿入
ここで、ここに画像の説明を挿入は正規化変数です。実験では、ラベル付けされたポイントの 10% のみで競合する結果が得られることがわかりました。つまり、||M||_1/(B N)=0.1 です。

まず、同じ重みを持つ 2 つのネットワーク (完全な監督でトレーニングされたネットワークと弱い監督でトレーニングされたネットワーク) が同様の結果を生成すると仮定することから始めます。両方のネットワークが同じ初期化で始まると仮定すると、各ステップで勾配がより似ています。つまり、両方のネットワークが同様の結果に収束する可能性が高くなります。

完全な監督と弱い監督の勾配は、次のように表されます。

ここに画像の説明を挿入
各トレーニング ステップで、学習された勾配の方向は、個々の点に関して計算された勾配の平均です。ここに画像の説明を挿入期待値ここに画像の説明を挿入と独立した同一の分布を仮定するここに画像の説明を挿入と、サンプリング平均 (n ターゲットのサンプリング) は次のようになりますここに画像の説明を挿入次のことが確認できます。

ここに画像の説明を挿入、のここに画像の説明を挿入

中心極限定理によると、分布に関して次の収束が得られます。
ここに画像の説明を挿入
これは基本的に、完全に教師ありと弱教師の勾配の分散 σ^2 / ||M||_1 で正規分布することを示しています。したがって、十分な数のマーカー ポイント、つまり十分に大きな ||M||1 があれば、∇Θlf と ∇Θlw を適切に近似できます。σ の値を事前に推定することは困難ですが、この方法では、完全に監視された 10 倍未満のラベル付きポイントに匹敵する結果が得られます。

3. 不正確な監督ブランチ

各パーツに少なくとも 1 つのラベル付きポイントがあると仮定すると、各トレーニング サンプルX_bには不正確なラベルが付いていますここに画像の説明を挿入。これは、すべてのポイントで最大プーリングを実行することと同じです。したがって、不正確な監視ブランチは、複数インスタンス学習 [18, 7] と同様の方法で構築されます。Z_b を埋め込む機能は、最初にプールされたグローバルな最大値です。つまり、ここに画像の説明を挿入¯zb は各カテゴリの対数を定義するため、クロスエントロピーを損失として使用できます。論理的根拠は、
ここに画像の説明を挿入
サンプルに含まれていない部分カテゴリの場合、高い対数を予測することです。点。不完全な監視ブランチは、非常に小さなブランチの N 個のラベル付きポイントのみを監視しますが、不正確な監視ブランチはサンプル レベルですべてのポイントを監視するため、それらは補完的です。

4.シャム自己管理

上記の 2 つの損失にもかかわらず、ラベル付けされていないポイントのほとんどは、まだ制約付きでトレーニングされていません。これらの点に対する追加の制約により、調査結果がさらに改善される可能性があります。任意の点の予測は、回転とミラー反転に対して不変であると仮定しますこの前提は、X 方向に回転した 3D CAD 形状と屋内シーンに特に当てはまります。これを考慮して、2 つの共有パラメーター エンコーダー f1(X) と f2(X) を持つシャム ネットワーク構造を設計します。データ拡張: X 軸および/または Y 軸に沿ったミラーリングとXoY 平面の回転、すなわち: θ ~ U(0, 2π) 一様分布; a, b, c ~ B(1, 0.5) ベルヌーイ分布ここに画像の説明を挿入
最初のマトリックスは回転の度合いを制御し、2 番目のマトリックスはミラーリングと X、Y スワッピングを制御します。**g(f1(X))発散:
ここに画像の説明を挿入

5. 空間と色の滑らかさの制約

3D 形状またはシーンのセマンティック空間空間と色空間の両方で滑らかです。監視が弱い設定では、多数のラベルのないポイントを埋め込むことがセグメンテーションの損失によって十分に制約されない場合、明示的な制約はより有益です。

多様体を点群上で定義して、グラフを通じて局所的なジオメトリと色を説明できます。多様体グラフを構築するには、最初にチャネル c (xyz または rgb) のペアごとの距離を計算します。ここに画像の説明を挿入つまり、ここに画像の説明を挿入
次に、各点の k 個の最近傍 k(x) を検索することにより、k-nn グラフを構築できます。対応する重み行列 W_c∈R_N×N は、
ここに画像の説明を挿入2 つの重み行列 xyz と rgb、xyz と rgb の合計を多様体グラフとして取り、より信頼性の高い多様体を生成するように記述されています。これは、xyz チャネルここに画像の説明を挿入ここに画像の説明を挿入が境界 、rgb チャネルはそれぞれ離れた点を接続します。空間距離と色に関して構築された多様体がラベル付けされた GT と矛盾する場合、既知の注釈への準拠を強制するために W に追加のリンクおよびリンク解除の制約 [31] を追加します。ここに画像の説明を挿入

トレーニング フェーズ:

多様体正則化器 [3] を導入して、各ポイントの特徴埋め込みが以前に取得された多様体に適合するようにします。w_ij が高く、制約がない場合、予測 f(xi) は f(xj) 付近に留まるはずです。ここで、
ここに画像の説明を挿入Z はすべてのポイントの予測です。

予測フェーズ:

画像セグメンテーションでは、CNN の予測が境界を十分に考慮していないことはよく知られており、[4、9] と CRF は元の予測を改良するためによく使用されます。監視が弱い点群セグメンテーションでは、ラベルが限られているため、この問題は悪化します。この問題を軽減するために、半教師付きラベル伝搬手順[38] を導入して予測を改善します。具体的には、洗練された予測 Z~ は、ラプラシアン L によって定義された空間および色多様体に準拠する必要がありますがネットワーク予測 Z から大きく逸脱することはありません。目標は次のとおりです。
ここに画像の説明を挿入

6. トレーニング

最終的なトレーニング目的は、上記のすべての目的を組み合わせることです。つまり、合計 = l_seg + λ1l_mil + λ2l_sia + λ3l_smo です。経験的にλ1、λ2、λ3=1に設定します。k-nn グラフを k=10、η=1e3、γ を式の 1 として選択します。

4.実験

3 つのデータセット: ShapeNet は、16 のカテゴリからの 16,881 の形状を含む CAD モデル データセットで、それぞれに 50 のパーツで注釈が付けられています。トレーニング サンプルごとに、ラベル付けする各セクションからポイントのサブセットをランダムに選択します。
PartNet [16] は、よりきめ細かい点群学習のために提案されています。合計 26,671 の形状を持つ 24 の固有の形状カテゴリで構成されています。
S3DIS [1] は、屋内シーンの理解に使用されます。それぞれがいくつかの部屋をカバーする6つのエリアで構成されています。

S3DIS データセットで選択した部屋のセグメンテーション結果。左から右に、RGB ビュー、グラウンド トゥルース、完全に教師ありのセグメンテーション、弱教師ありのベースライン メソッド、およびメソッドの最終結果を視覚化します。
ここに画像の説明を挿入
特に、提案された方法は、ノイズの多い領域を平滑化することにより、ベースライン結果を大幅に改善できます。それにもかかわらず、異なるオブジェクト間の境界で、メソッドのいくつかのエラーが観察されます。ShapeNet でのセグメンテーション結果を図に示します (これらの例は、弱い教師あり方法の非常に競争力のあるパフォーマンスを再度示しています。航空機と自動車の両方のクラスについて、弱い教師ありの結果は完全教師ありに非常に近いです)。
ここに画像の説明を挿入

要約する

このホワイト ペーパーでは、既存のポイント クラウド エンコーダー ネットワークが、少数のラベル付きポイントのみを使用して、ポイント クラウド セグメンテーション タスクに対して非常に競争力のあるパフォーマンスを生成できることを示します。固定ラベル予算の下で、統計的観点からの分析とアノテーション戦略への洞察を提供します。さらに、モデルをさらに正則化するために、不正確な監督シャム自己監督空間および色の平滑化という 3 つの追加のトレーニング損失を提案します。実験は、提案された方法の有効性を検証するために、3 つの公開データセットで行われます.特に、結果は、ラベル付けされたポイントが 10 分の 1 の完全な監視に匹敵します。

おすすめ

転載: blog.csdn.net/qq_45752541/article/details/126638383