FDGCNN＜論文＞

タイトル: Faster Dynamic Graph CNN: Faster Deep Learning on 3D Point Cloud Data
Faster Dynamic Graph CNN: Faster Deep Learning on 3D Point Cloud Data

概要：

畳み込みニューラルネットワーク (CNN) または再帰型ニューラルネットワーク (RNN) の非構造化および無秩序な機能により、点群データを畳み込みニューラルネットワーク (CNN) への入力として適用することは困難です。
この研究では、点群データをグラフ CNN を使用して正準空間に配置することで、この問題に対処します。
提案されたグラフ CNN は、ネットワークの各層で動的に機能し、点の近傍情報を取得することによってグローバルな幾何学的特徴を学習します。
さらに、スクイーズド励起モジュールを使用して各層の情報を再調整することにより、パフォーマンスと計算コストの間の適切なトレードオフを実現し、残差型スキップ接続ネットワークを設計して、深いモデルを効率的にトレーニングします。
提案されたモデルを使用して、ベンチマークデータセット (つまり、ModelNet40 と ShapeNet) の分類とセグメンテーションで最先端のパフォーマンスを達成し、他の同様のモデルよりも 2 倍から 2.5 倍高速なモデルトレーニングを可能にします。

I.はじめに

主な貢献は次のとおりです。

エッジ畳み込みブロックでアテンション再キャリブレーションブロックを使用すると、エッジ特徴とポイント特徴マップの表現力を向上させることができます。
スキップ密度ネットワークを使用すると、レイヤー数が多いモデルをより高速に学習できます。
提案されたモデルで実験を行い、ベンチマークデータセットで最先端のパフォーマンスを達成し、他の同様のモデルよりも 2 倍から 2.5 倍速く学習します。

II.関連作品

A. ディープニューラルネットワークアーキテクチャ
B. 3D データ表現
C. 幾何学的ディープラーニング

III.方法

我々が提案したモデルは、 DGCNN モデル[12]の影響を大きく受けています。エッジ畳み込みに基づいて、点間の幾何学的特徴 (またはエッジ特徴) をキャプチャし、エッジ特徴を学習します。
DGCNN モデルは多層パーセプトロン (MLP) の上に構築されますが、独自のスキップネットワークと再調整ブロックを追加することで、より深く高速なネットワークを構築します。

A. 分類モデル

1) パイプラインモデル

提案された分類モデル: 分類モデルは入力として n ポイントを受け取り、空間変換ブロックとエッジ畳み込みブロックを介してエッジ特徴マップを計算します。出力エッジフィーチャマップは SE モジュールによって再調整され、再調整されたフィーチャマップが集約されます。集約された特徴マップは、最終的にスキップ高密度ネットワークを通過して、ラベルの分類スコアを出力します。

空間変換ブロック [空間変換ブロック] とエッジ畳み込みブロック [エッジ畳み込みブロック] は、バックボーンモデルの主要な要素です。
空間変換ブロックは、推定された 3×3 行列を適用することにより、点群入力を典型的な空間に整列させることを目的としています。この 3×3 行列を推定するために、各点と k 個の隣接点の間の座標差を連結するテンソルが使用されます (図 3(a))。
k 最近傍点と点の座標の差が連結されます。したがって、図3（a）に示すように、k-NNマップ後の特徴マップのサイズは、n×k×（3 + 3）= n×k×6です。エッジ畳み込みブロックは、各ポイントのエッジ機能を計算し、集約関数を適用して、n×n 形状のテンソルを出力します。ここで，n は入力とする点数，an は適用した MLP のサイズである (図 3(b))．

エッジ畳み込みブロックの詳細な説明は次のとおりです。F 次元の点群データセット X={p1,p2,⋯,pn}⊆RF が入力されたとします。ほとんどの 3D 点群データでは、F=3、pi=(xi,yi,zi) です。質感や色などの情報を加えるとFが大きくなります。この X に基づいて、V={p1,p2,⋯,pn} を頂点集合として含む有向グラフ G=(V,E) を構成し、E⊆V×V を辺集合とします。エッジ集合 E は次のように表されます。

その中で、fΘはRF×RF→RF'という非線形関数です。Θ は学習可能なパラメーターです。この構成 V および E に基づいて、G は k 最近傍グラフとして構築され、エッジ畳み込みブロックに反映されます。関数 fΘ は、エッジフィーチャの表現を次のように定義します。

この非対称関数は、pi を中心とするグローバル形状構造と、pj-pi を中心とするローカル近傍を組み合わせます。最後に、l 番目のチャネルのエッジの特徴は、MLP によって次のように表されます。

n 点集合 X に対して k-NN グラフ G を構築した後、G を入力としてエッジ畳み込みプロセスを実行します。エッジ畳み込みでは、各頂点に接続されたすべてのエッジの特徴に対称集約関数 g を適用します。このプロセスにより、エッジフィーチャはエンベロープの影響を受けなくなります。i 番目の点 xi からのエッジ畳み込み結果 xi は、次のように表すことができます。

この対称関数は n 個のベクトルを入力として取り、入力の順序に対してロバスト (または不変) な新しいベクトルを出力します。したがって、n 個の点を持つ F 次元の点群が与えられた場合、エッジ畳み込みブロックを通過すると、F' 次元で同じ数の点群が生成されます。注意、長期短期記憶 (LSTM)、平均プーリング、最大プーリングなどの方法はすべて、順序不変関数を選択するために使用できます g; メソッドの比較では、最大プーリングが最も高い精度を持っています] 最大プーリング関数 g が選択されました。したがって、(4) の後のエッジ畳み込み結果は次のようになります。

エッジ特徴関数 f は対称関数であるため、順列に対して不変であり、モデルの最大プーリングである特徴集約関数 g も順列に対して不変です。したがって、(5) の結果 pi' も入力 pj に対して不変です。
さらに、(6) によれば、各点が T だけ移動すると、そのエッジの特徴は保持されます。ϕl=0 の場合、エッジフィーチャは完全に平行移動不変です。この場合、モデルはポイント間のフィーチャ (またはエッジフィーチャ) のみを利用し、各ポイントの幾何学的情報は無視します。したがって、ϕl≠0 の場合、pi と pj-pi の両方を入力値と見なすことで、モデルは元の形状情報を維持したまま局所領域情報を考慮することができます。

2) Se モジュール

CNN 構造では、各畳み込みフィルターが画像または特徴マップの局所特徴 (局所受容野の情報の組み合わせ) を学習します。これらを能動関数（能動関数）で組み合わせることで非線形関係を導出し、プーリングと同じ手法で大きな特徴をまとめて見えるように縮小します。その結果、CNN はグローバルな受容野の関係を効率的に管理できるため、画像分類などの分野で人間よりも優れたパフォーマンスを発揮することができました。
SE モジュールは、畳み込み機能間の依存関係をモデル化して、既存の CNN の表現力をさらに高めます。SE モジュールは、各機能マップの完全な情報を要約するスクイーズ操作と、各機能マップの重要度を拡張するブースト操作で構成されます。SE モジュールは、各特徴マップの完全な情報を要約するスクイーズ操作と、各特徴マップの重要度をスケーリングする励起操作で構成されます. SE モジュールでは、パラメーター数の増加と比較して、モデルのパフォーマンスの向上非常に明白であり、同時に、モデルと計算の複雑さが大幅に増加しないことが保証されます。
押し出し操作は、実際にはフィーチャの押し出しです。各チャネルからインポート情報のみが抽出されます。各チャネルからインポート情報のみが抽出されます.コア情報を抽出するという概念は、局所受容野が非常に小さいサブネットワークでは重要です. コア情報を抽出するための最も一般的な方法の 1 つである Global Average Pooling (GAP) を使用します。GAP を使用すると、グローバルな空間情報をチャネル記述子に圧縮できます。局所受容野が非常に小さいサブネットワークでは、コア情報を抽出するという概念が重要です.コア情報を抽出するための最も一般的な方法の1つであるグローバル平均プーリング(GAP)を使用します.GAPにより、グローバル空間情報を使用してチャネル記述子に圧縮されます。
コア情報を絞り込んだ後、モジュールは取得操作によって再調整され、チャネル間の依存関係が計算されます。
Fscale(⋅,⋅) はチャネルごとの乗算であり、X~ は押し出し操作前の H、W、および C サイズの特徴マップです。最終的に、インセンティブ操作後のスケール値は 0 から 1 の間になるため、チャネルの重要度に応じてスケーリングされます。
この調査では、SE 操作がエッジ畳み込みブロックを介して各フィーチャマップに適用され、ポイントクラウドフィーチャに結合されます。さらに、各ステップでチャネル固有の重み付けされた SE 操作出力を追加することにより、より深い特徴マップを構築できます。このプロセスにより、高次元の点群データをより効率的に処理でき、わずかな追加計算で高い学習速度とパフォーマンスの向上が期待できます。

3) スキップ密度の高いネットワーク

上記のバックボーンネットワークの出力をスキップデンスネットワーク [65] の入力として使用します (図 6(a))。スキップ密ネットワークは、次のように表現される、スキップ接続を含むスタックされた全結合層で構成されます。

(7) において、Il はレイヤ l のスキップシークレット入力、BNγ、β はバッチ正規化、γ と β はバッチ正規化のパラメータです。次のステップは、ReLU 活性化関数と全結合層です。W と b は、全結合層のパラメーターです。α は、接続をスキップする割合を調整する係数です。この純粋なスキップ密度ネットワークは、パフォーマンスを向上させながらモデルの深さを増やしますが、パラメーターの数と計算の複雑さを大幅に増加させるという代償を払います。したがって、SEモジュールを適用して高密度ネットワークをスキップし、学習速度とパフォーマンスを向上させます（図6（b））。

B. 部品分割モデル部品分割モデル

図 5 にセグメンテーションモデルを示します。セグメンテーションモデルは分類モデルに似ていますが、さらに分類ベクトルを考慮します。セグメンテーションモデルと分類モデルの違いは、分類ベクトルが再調整された特徴マップに集約されることです。ラベルベクトルを考慮し、点群の特徴とポイントのセグメンテーションラベルを同じ特徴マップにまとめると、ローカル情報とグローバル情報の学習効果が同時に発生します。最後に、モデルは n×p セグメンテーションラベルを予測します。

IV.実験

A. 分類モデル

おすすめ