PAN(セマンティック セグメンテーションのためのピラミッド アテンション ネットワーク)論文解读

セマンティック セグメンテーション用のピラミッド アテンション ネットワークは、セマンティック セグメンテーションに PAN を使用し、ネットワーク構造はエンコーダーとデコードの U 字型に似ています。

バックグラウンド

エンコーダ デコーダ構造
では、高次元の特徴にエンコードする過程で、元のテクスチャ情報は FCN などの空間解像度の損失を受けます。
PSPNet や DeepLab では、空間ピラミッドとホールの畳み込み (ASPP) を使用してこの問題に対処しています
が、ASPP ではグリッド アーティファクトが発生しやすく、空間ピラミッドではピクセル レベルの位置情報が失われます。
著者は SENet と Parsenet からインスピレーションを得て、高次元の特徴からピクセル レベルのアテンション情報を抽出します。

PAN は、FPA (Feature Pyramid Attendance) と GAU (Global Attendance Upsample) の 2 つの構造から構成されており、
FPA はエンコーダーとデコーダーの間の接続に似ており、受容野を増加させ、小さなターゲットを区別する機能があります。
GAUはFCNの背後にあるデコーダのアップサンプリングに似ており、高次元の特徴から注目情報を抽出することもでき、計算量はそれほど多くありません。

関連作業

PAN 構造はエンコーダ-デコーダ、アテンションに似ており、PSPNet の空間ピラミッド構造も考慮されているため、
同様の作業としてエンコーダ-デコーダ、グローバル コンテキスト アテンション、空間ピラミッドが含まれます。

encoder-decoder: 構造についてはあまり言うことはありません。主な特徴は、隣接するステージの特徴を接続することですが、グローバル特徴情報は考慮されていません。
グローバル コンテキスト アテンション: ParseNet から生まれたグローバル ブランチは、受容野を強化し、ピクセル単位の分類の一貫性を強化するために適用されます。
DFN は、U 字型を V 字型に変えるために、U 字型の上部にあるグローバル プーリング ブランチを使用します。この記事の著者はまた、グローバル平均プーリングを使用して、特徴的な特徴を選択するためにデコーダ ブランチに追加します

空間ピラミッド: マルチスケール情報を抽出するために使用されます。空間ピラミッド プーリングは、さまざまなスケールのターゲットに適しています。PSPNetやDeepLabシリーズはグローバルプーリングを空間ピラミッドプーリングやASPPまで拡張しており、効果は良いものの計算が非常に重いです。

パン

PANにはFPAとGAUがあり、モジュールは下図のとおりで、バックボーンはResNet-101で、
FPAはエンコーダ・デコーダの分岐点に相当します。
ここに画像の説明を挿入

FPA

その目的は、CNN の高レベルの特徴にピクセルごとの注意を提供することです。
最近のセマンティック セグメンテーションでは、ピラミッド構造によりさまざまなスケールの特徴を抽出し、受容野を増やすことができますが、この構造にはグローバルな情報が欠けています (チャネル選択の欠如)。メカニズム))。
同時に、チャネル アテンションのベクトルが選択された場合、マルチスケールの特徴を抽出できず、ピクセル単位の情報が欠落します。

著者は、ピクセル単位の注意とマルチスケール機能を組み合わせています。
したがって、このモジュールは 3 つの異なるスケールの特徴を U 字構造で組み合わせており、異なるスケールの特徴を抽出するために、ピラミッドでは 3x3、5x5、および 7x7 の畳み込み層が使用されます。高次元の特徴が使用されるため、高次元の特徴マップは通常比較的小さいため、コンボリューション カーネルが大きくなっても多くの計算は必要ありません。

次に、CNN によって出力された入力特徴が 1x1 畳み込みを通過した後、FPA によって出力された特徴とピクセル単位で乗算できます。ピクセルごとの注意の役割を果たし、マルチスケールを組み合わせます。

上記のグローバル ブランチを追加し、グローバル平均プーリングを使用し、それを出力機能に追加しました。
得られた最終的な構造は次のとおりです。
ここに画像の説明を挿入

著者は、チャンネルリデュースは乗算の前に実行されるため、PSPNet や ASPP のように大量の計算を消費しないと述べました。

ガウ

この部分はデコーダに属します。バイリニア補間アップサンプリングは PSPNet や Deeplab で使用されており、単純なデコーダとみなすことができます。一般的なエンコーダ
デコーダ ネットワークは主に異なるスケールの特徴を考慮し、ターゲットの境界を段階的に復元します。デコーダ。この種のネットワークは一般に非常に複雑で、大量の計算が必要になります。

最近の研究では、CNNとピラミッドを組み合わせることで効果が向上し、カテゴリー情報も強化されることがわかっています。
著者は、高次元の特徴と補助カテゴリ情報を使用して、低次元の情報に重みを与え、正確な詳細を選択することを検討しています。

GAU は、グローバル平均プーリングを使用してグローバル情報を提供し、カテゴリの位置決めの詳細を選択するための低次元特徴の重みを提供します。
具体的には、低次元特徴量に対して 3x3 の畳み込みを実行してチャネルを削減します (計算量を削減します)。
高次元特徴量はグローバル平均プーリング層を通過し、1x1 畳み込み + BN + ReLU を使用して重みベクトルが取得され、この重みと低次元出力が乗算され、乗算の結果が加算されます。本来の
機能を高次元で再現します。
ここに画像の説明を挿入

ネットワーク構造

ネットワーク構造は PAN 部分に貼り付けられているので、もう一度投稿しましょう
ここに画像の説明を挿入
詳細:
バックボーン: ResNet-101、ImageNet で事前トレーニング済み、
res5b ブロック上の rate=2 拡張畳み込みで特徴マップを抽出するため、特徴マップのサイズは入力画像はその 1/16 (DeepLabv3+ と同様)。
ResNet-101 の 7x7 コンボリューションを 3 つの 3x3conv に置き換えます (PSPNet と同様)

トレーニングの詳細:
ここに画像の説明を挿入

学習にはPASCALの拡張版を使用しており、参照データ
セットの利用方法githubは以下の通りです。
pytorchバージョン ターゲットセグメンテーション
pytorchバージョン セマンティックセグメンテーション

おすすめ

転載: blog.csdn.net/level_code/article/details/130821292