元の非ローカルブロック構造図
1.要約
標準の非ローカルの問題:
- 計算が多すぎる
- GPUメモリ使用量が多すぎる
著者は、セマンティックセグメンテーション用の非対称非ローカルニューラルネットワークを提案します。これには、非対称ピラミッド非ローカルブロック(APNB:計算量とメモリ消費量を大幅に削減)と非対称融合非ローカルブロック( AFNB)。
2.はじめに
以前の調査では
、リモートの依存関係を最大限に活用すると、パフォーマンスを向上できることが示されています。
標準の非ローカルブロックの場合、キーブランチと値ブランチの出力が同じサイズである限り、非ローカルブロックの出力サイズは変更されません。これを念頭に置いて、キーブランチとバリューブランチからいくつかの代表的なポイントしかサンプリングできない場合、パフォーマンスを犠牲にすることなく時間の複雑さを大幅に減らすことができます。したがって、画像のNをSに変更します(S << N)。
3.非対称非ローカルニューラルネットワーク
3.1非ローカルブロックの再検討
- 入力機能x∈R C×H×Wである φ∈Rに3 1×1の畳み込みWφ、WθWγおよびX変換を使用して、C×H×Wである、
θ∈R C×H×Wであるとγ∈R C ×H×W
- 平坦化はCˆ×Nのサイズです。Nは空間位置の総数、つまりN = H・Wを表します。類似度行列
V∈RN ×Nを見つける
- Vを正規化します。正規化関数fは、softmax、rescaling、およびnoneの形式をとることができます。
- γの各位置について、アテンションレイヤーの出力は
- 最終出力は
、Woも1×1のたたみ込みによって実装され、重み付けパラメーターとして使用され、元の入力Xであり、チャネルサイズがCˆからCに復元されます。
3.2。非対称ピラミッド非ローカルブロック
非ローカルネットワークは、セマンティックセグメンテーションに重要なリモートの依存関係を効果的にキャプチャします。標準の非ローカル操作は非常に時間がかかり、メモリを消費します。明らかに、大きな行列の乗算が非ローカルブロックの非効率性の主な理由です。
我々は、異なる数N S(S << N)に変更され、出力が同じサイズ、すなわち、残る
代わりに全ての空間点の選択の代表的なガンマからのサンプリング点の数に端数N S相当に変更]とθ、 、図1に示すように。したがって、計算量を大幅に削減できます。
具体的な説明:
-
我々は、それぞれ付し、いくつかのスパースサンプリングを固定するために、モジュールPθとPγのθをサンプリングし、γ後追加
θP∈R C×SとγP∈R C×S Sは、アンカーのサンプル数です。
-
φとアンカーポイントθPの間の類似度行列VPを計算します。VP
はサイズN×Sの非対称行列であることに注意してください。次に、VPは、標準の非ローカルブロックと同じ正規化関数を使用して、統一された類似度行列を取得します。 -
注意の出力:
この非対称行列の乗算により、時間の複雑さが軽減されます。ただし、Sが小さいときにパフォーマンスが大幅に低下しないようにすることは困難です。
上記の問題を解決するために、非ローカルブロックにピラミッドプールを埋め込み、計算のオーバーヘッドを削減しながらグローバル表現を強化します。
そうすることで、図3に示すように、非対称ピラミッド非ローカルブロック(APNB)の最終式に到達しました。重要な変更は、サンプルアンカーのθおよびγの後に空間ピラミッドプールモジュールを追加することです。サンプリングプロセスは、図4で明確に説明されています。ここでは、θまたはγの後にいくつかのマージレイヤーが適用され、4つのマージ結果がフラット化されて接続され、次のレイヤーの入力として使用されます。
空間ピラミッドプーリングモジュールをおよびとして表します。上付き文字nは、プーリングレイヤーの出力サイズの幅(または高さ)を表します(実験的に、幅は高さに等しい)。このモデルでは、n⊆{1、3、6、8}を設定します。次に、アンカーポイントの総数は、
空間ピラミッドプールが、グローバルシーンの意味の手がかりに関する十分な機能統計情報を提供して、計算の削減による潜在的なパフォーマンス低下を修正することです。
3.3。非対称フュージョン非ローカルブロック
標準の非ローカルブロックの入力ソースは1つだけですが、FNB(Fusion Non-local Block)の入力ソースは2つあります。高レベルの特徴グラフXh∈R Ch×Nhと低レベルの特徴グラフXl∈R Cl×Nlです。
同様に、1×1のたたみ込み和を使用してXhとXlを変換し
、φhとθlの間の類似度の行列を行列の乗算によって計算し、
次にVFを正規化して、統一された類似度行列を取得し
ます。
3.4。ネットワークアーキテクチャー
私たちのバックボーンネットワークとして、ResNet-101は最後の2つのダウンサンプリング操作を削除し、拡張畳み込みを使用して、入力画像の最後の2つのステージで特徴マップを保存します。Stage4とStage5の機能を統合するために、AFNBを使用します。その後、融合された機能はStage5の後に機能マップに関連付けられ、AFNBが正確な拡張機能を生成できない状況を回避します。