ニューラル ネットワーク: プーリング層のナレッジ ポイント

1. CNN におけるプーリングの役割

プーリング層の役割は、受容野内の特徴を選択し、その領域で最も代表的な特徴を抽出することです。これにより、出力特徴の数が効果的に削減され、それによってモデル パラメーターの量が削減されます。演算の種類に応じて、通常は Max Pooling、Average Pooling、Sum Pooling に分けられ、それぞれ受容野の最大固有値、平均固有値、合計固有値を出力として抽出します。最もよく使用されるのは Max Pooling と Average Pooling です。プールすること。

2. グローバルプーリングの役割

グローバル プーリングには、主にグローバル平均プーリングとグローバル最大プーリングが含まれます。

グローバル最大プーリング

世界的な平均プーリング

次に、Rocky はグローバル平均プーリングを例として取り上げ、それが深層学習ネットワークでどのように機能するかを説明します。

先ほども述べたように、グローバル平均プーリングとは、畳み込みの最終層の特徴マップ上で各チャネルの特徴マップ全体の平均値を計算することです。以下に示すように:

世界的な平均プーリング

一般に、ネットワークの末端には複数の全結合層が接続されますが、グローバルプーリング後の特徴マップは 1 ピクセルに相当するため、最後の全結合層は実際には重み付き加算演算になります。この構造は直接完全接続よりも直観的であり、パラメーターの数が大幅に削減され、汎化パフォーマンスが優れています。

グローバル プーリングの役割:

1.情報の冗長性を削減します

  • プーリング層は、二次情報を抑制しながら、入力特徴マップ内の主要な情報を抽出するのに役立ちます。この操作により、モデルは重要な特徴にさらに焦点を当て、冗長または無関係な特徴を削減できるため、モデルのトレーニングおよび汎化機能に有益です。

2.特徴量の次元削減とダウンサンプリング:

  • プーリング操作により、出力特徴マップのサイズが削減され、特徴の次元削減とダウンサンプリングの効果が得られます。これにより、計算量が削減され、後続のレイヤーの画像特徴の認識範囲が向上するため、プールされた 1 つのピクセルが前の画像の領域に対応します。

3.機能の圧縮とネットワークの簡素化:

  • プーリング層は、特徴マップを圧縮し、コンピューティング リソースの消費を削減し、ネットワーク構造を簡素化し、モデルの複雑さを軽減し、過剰適合を防止し、モデルの汎化能力を向上させることができます。

4.モデルの不変性を改善します

  • プーリング操作は、スケール、回転、平行移動に対するモデルの不変性を向上させるのに役立ちます。プール後、入力特徴マップのサイズや回転角度が変更されても、出力特徴マップのサイズや回転角度は変更されません。この不変性は、モデルの汎化能力と堅牢性の向上に役立ちます。

5. 非線形性を実現します。

3. プーリングの分類

A. 一般的なプール:

CNN では、プーリング層を使用して特徴マップの空間サイズを削減し、計算量を減らし、過剰適合の可能性を減らします。最も一般的なプーリング操作は次の 2 つです。

平均プーリング:
  • 画像領域の平均を、その領域のプール値として計算します。
  • 近傍内の限られたサイズにより推定値の分散が大きくなる現象を抑えることができます。
  • 背景保存効果が高いのが特徴です。
最大プーリング:
  • 画像領域の最大値を領域のプール値として選択します。
  • ネットワークパラメータの誤差による推定平均偏差現象を抑制できます。
  • テクスチャ情報の抽出が優れているのが特徴です。
確率的プーリング:
  • ローカル値は確率に従ってサンプリングされ、サンプリング結果がプーリング結果となります。

B. 重複プーリング:

場合によっては、隣接するプーリング ウィンドウ間に重複領域が存在する可能性があります。この場合、プーリングウィンドウのサイズは、ストライド(stride)よりも大きく設定されるのが一般的である。

オーバーラッププーリングの特徴は、従来のプーリング操作よりも画像の特徴をより完全に捉えることができることですが、計算量の増加につながる可能性もあります。

これらのプーリング手法は、重要な情報を保持しながらデータ サイズとパラメータ量を削減するために CNN で一般的に使用される技術手法であり、それによってモデルのパフォーマンスと汎化能力を向上させます。

4. プーリングの高度な利用---SPP構造の紹介

論文名:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
ダウンロードアドレス:https://arxiv.org/abs/1406.4729

Spatial Pyramid Pooling (SPP) レイヤーの導入により、従来の畳み込みニューラル ネットワーク (CNN) における固定入力画像サイズの制限が解決されました。従来の完全接続レイヤーでは、入力に固定サイズの特徴ベクトルが必要です。つまり、すべての入力画像が同じサイズである必要があり、通常はトリミングまたはストレッチする必要があるため、画像の歪みが生じます。SPP 層を使用すると、ネットワークはさまざまなサイズの入力画像を受け入れ、ピラミッド型のプーリング エリアを通じてさまざまなサイズの特徴マップの特徴を統合および抽出できます。その機能は、事前に画像を処理する必要がなく、完全に接続された層に接続する前にすべての入力が同じサイズになるように、さまざまなサイズの特徴マップを固定サイズの特徴ベクトルに変換することです。この柔軟性により、ネットワークの適用性と一般化機能が向上し、モデルがさまざまなサイズの入力をより柔軟に処理できるようになります。

ここに画像の説明を挿入します
ここに画像の説明を挿入します

SPP (空間ピラミッド プーリング) の主な機能は次のとおりです。

固定サイズの出力: SPP は、入力サイズに関係なく固定サイズの出力を生成できるため、固定長の入力を必要とする完全に接続されたレイヤーの制限を克服できます。

複数のウィンドウのプール: SPP は複数のウィンドウのプールを使用し、さまざまなスケールで特徴を抽出できるようにします。

スケール不変性と特徴の一貫性: 異なるアスペクト比とサイズの入力画像を処理できるため、モデルのスケール不変性が強化され、オーバーフィッティングのリスクが軽減されます。

その他の機能は次のとおりです。

トレーニング画像の多様性により、ネットワークの収束が容易になります: SPP では、トレーニングにさまざまなサイズの画像を使用できます。単一サイズのトレーニング画像と比較して、このトレーニングの多様性は、ネットワークの収束にさらに役立ちます。

特定のネットワーク設計や構造に依存しない: SPP は、ネットワーク構造に影響を与えることなく、畳み込みニューラル ネットワークの最後の層として使用でき、元のプーリング層を置き換えるだけです。

画像分類やターゲット検出に最適:SPPは画像分類だけでなく、ターゲット検出などのタスクにも使用でき、応用分野が広がります。

SPP のこれらの特性により、SPP は、さまざまなサイズやアスペクト比の画像を処理するときに固定長の特徴ベクトルの出力を維持する強力なツールとなり、モデルの柔軟性と一般化機能が向上します。

おすすめ

転載: blog.csdn.net/weixin_51390582/article/details/135109045