深層学習 - 拡張畳み込み

1. 序文
拡張畳み込み ( Dirated Convolution ) は拡張畳み込みまたは拡張畳み込みとも呼ばれ、標準の畳み込みカーネルにホールを注入してモデルの受容野 (受信フィールド) を増加させます。 \color{blue }{拡張畳み込み (拡張畳み込み) とも呼ばれます。拡張畳み込みまたは拡張畳み込みとして、標準の畳み込みカーネルにホールを注入してモデルの受容野 (受信場) を増加させることです。拡張コンボリューション( Dilated Convolution )拡張コンボリューションまたは拡張コンボリューションも呼ば標準コンボリューションカーネルにホールを注入して、モデルの受容野 ( 受信 Fi増加ます)を増加ますe l d )元の通常の畳み込み演算と比較して、拡張畳み込みにはもう 1 つのパラメータがあります: 拡張率、これは畳み込みカーネルのポイント間の間隔の数を指します。たとえば、従来の畳み込み演算の拡張率は 1 です。
CNN の構造では、ほとんどの層は Conv と Pooling によって完成され、この 2 つの層は CNN の 2 つの非常に重要なコンポーネントです。一般に、画像分類タスクでは、Conv と Pooling によってスタックされたバックボーンが優れた特徴抽出機能を備えており、このスタックの最も古典的な構造は VGG です。画像がネットワークに出力された後、Conv は特徴抽出を実行し、Pooling は特徴集約を実行して、モデルにある程度の平行移動不変性を持たせ、後続の畳み込み層の計算能力を削減することもできます。最後に、分類結果を全結合層に出力すれば十分です。
ただし、この構造には、ターゲットの検出と画像のセグメンテーションに関していくつかの問題があります。

  • 受容野はターゲット検出と画像セグメンテーションにおいて非常に重要です。たとえば、ターゲット検出は通常、特徴マップの最後の層で予測する必要があるため、特徴マップ上の点を元の画像にマッピングできるピクセルの数によって、サイズの上限に達しており、受容野の保証はダウンサンプリングに依存するため、ダウンサンプリングの結果、小さなターゲットは検出されにくくなります。
  • 上記の問題については、ターゲットが小さいほど以前の特徴マップに反映しやすいため、多層特徴マップのプル ブランチによってこの問題を改善できますが、前の特徴マップの意味情報では十分ではありません。たとえば、この問題SSD に存在します。
  • ダウンサンプリングは実行せず、畳み込み層の数を増やすだけです。第一に、ネットワークの計算量が増加します。第二に、プーリング集約を使用しない最終的な特徴抽出効果にも影響があり、受容野は変わりません。 。
    それでは、特徴マップのサイズを犠牲にすることなく受容野を増やす方法はあるのでしょうか?
    拡張畳み込みはまさにそれを行います。

2. 拡張コンボリューション演算の原理は
ここに画像の説明を挿入
まだよく理解されています. 上図の (a) は基本的なコンボリューション カーネルであり、拡張コンボリューションはこの基本コンボリューション カーネルに区間を追加することです. 上の図 (b) は、 rate=2 の 3 × 3 Convolution ですが、間隔は 1 なので、7 × 7 に相当する画像ブロックに相当します。カーネルサイズは 7 × 7 になっていますが、パラメータを持っている点は 9 点だけであることがわかります。残りの位置パラメータは両方とも 0 で、入力特徴マップに対応するピクセルで畳み込み計算が実行され、残りの位置はスキップされます。図 © は図 (b) と似ていますが、拡張率 = 4 である点が異なります。これは 15 × 15 のコンボリューション カーネルになるのと同等です。
コンボリューションカーネルのサイズが大きくなると、当然、受容野も大きくなります。

拡張畳み込みを理解する方法を参照してください。

おすすめ

転載: blog.csdn.net/weixin_40826634/article/details/128200543