受容野の計算方法

ディープニューラルネットワークの受容野

この記事は Zhihu: Receptive Field in Deep Neural Networks - Lan Muda の記事 - Zhihuからの転載です

マシンビジョンのディープニューラルネットワークの分野では、受容野と呼ばれる概念があり、ネットワーク内のさまざまな場所にあるニューロンの受容範囲のサイズを元の画像に対して表すために使用されます。ニューロンが元の画像のすべての情報を認識できない理由は、これらのネットワーク構造では畳み込み層とプーリング層が一般的に使用され、層が (スライディング フィルターを介して) ローカルに接続されているためです。ニューロンの受容野の値が大きいほど、アクセスできる元の画像の範囲が広くなり、よりグローバルで高度な意味論的な特徴が含まれる可能性があることも意味しますが、値が小さいほど、含まれる特徴の数は少なくなります。地域性と詳細に注意を払います。したがって、受容野の値を大まかに使用して、各層の抽象度を決定することができます。

では、この受容野をどのように計算するのでしょうか? まず次の例を見てみましょう。

ここに画像の説明を挿入します

Conv1 の各ユニットが見える元の画像の範囲は 3*3 であり、Conv2 の各ユニットは Conv1 の 2×2 の範囲で構成されているため、実際に元の画像まで遡ることができることがわかります。 5×5 の元の画像範囲を参照してください。したがって、Conv1 の受容野は 3、Conv2 の受容野は 5 であると言います。入力画像の各ユニットの受容野は 1 として定義されます。各ピクセルは自分自身しか見えないため、これは理解しやすいはずです。

上の図を通して、各層の受容野の大きさを「視覚的に確認」することができますが、層が多すぎて複雑すぎるネットワーク構造の場合、この方法は十分にスマートではない可能性があります。したがって、私たちはルールを要約して数式で記述し、複雑なネットワーク構造の各層の受容野を計算できるようにしたいと考えています。それでは、以下のルールを見てみましょう。

画像は 2 次元であり、空間情報を含むため、受容野の本質は実際には 2 次元の領域です。ただし、業界では通常、受容野を正方形の領域として定義するため、そのサイズを表すために辺の長さが使用されます。以下の説明では、この記事では幅方向のみを考慮します

次に、珍しい方法を使用して CNN の層間の関係を示します。

ここに画像の説明を挿入します

ここに画像の説明を挿入します

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/IYXUAN/article/details/127589560