畳み込みニューラルネットワークシリーズ(2)

チュービングのビデオから、
ストライド
通常、スライドのステップ長をストライドに変更します。元のサイズ77とステップサイズ2の33フィルターを適用し、毎回2つの正方形を右に移動し、畳み込みを実行します。2回移動した後右側に抽出する情報がこれ以上ないことがわかりました。次に、初期位置から2つのグリッドを下にスライドし、次に右にスライドする順序で特徴を抽出し、最後に33の特徴マップを
取得します。一般的に、ストライドが小さいほど、元の情報はフィルタースライドプロセス中の特徴抽出であるため、優れています。元の画像の情報をできるだけ多く保持して、結果の特徴マップが大きくなるようにします。ただし、時間効率を考慮すると、通常、stride = 1は使用されません。また、ストライドが大きすぎて元の情報を見逃してはなりません。たとえば7 7のサイズでは、ストライド= 4の場合、左上隅の情報を抽出した後、中央の列の情報を省略して、右上隅に直接スライドします。 。したがって、実際の申請プロセスでは、ストライドの選択を包括的かつ慎重に選択する必要があります。
パッド
この写真の一番上のアイテムはpad = 1であることがわかります。それでは、なぜこのアイテムを追加するのでしょうか。ポイントは何ですか。
元の画像のサイズは実際には55 (黄色のボックス)であるため3 3 stride = 2のフィルターを使用して特徴を抽出すると、左上隅(赤いボックス)の番号①の位置情報が抽出されることがわかります。②番号位置の情報も抽出されます。フィルターが右上(緑色のボックス)にスライドすると、番号位置②の情報が再度使用されます。情報が抽出される回数が多いほど、結果への影響が大きくなり、すべてのエッジ情報について、他の内部情報よりも抽出される回数が少なくなるため、元の画像の最外層の円を塗りつぶします。このとき、エッジ情報は複数回使用することもできます。
パッド
では、なぜ入力された数値は0でなければならないのでしょうか。
追加された円は元の画像情報ではなく、エッジ情報が特徴を抽出するのに役立つだけなので、特定の番号を追加すると、コンボリューション中に特徴マップに影響を与え、元の画像ではない情報を抽出します。結果を妨害します。
出力サイズのサイズを計算する方法は?
出力の幅と高さには、次の一般的な式があります。
出力=(入力フィルター+ 2パッド)/ストライド+1
出力-出力のサイズ(幅、高さ)
入力-入力のサイズ(幅、高)
フィルター-
フィルターストライドのサイズ-ステップ長次
に、画像の出力サイズはo =(7-3 + 2)/ 1 + 1 = 7として計算できます。ここでは、ストライド= 1であり、出力サイズは次のようになります。入力サイズと同じです。
ニューロンパラメータ
完全に接続されたネットワークの場合、各ニューロンには学習するパラメータがたくさんあります。完全に接続されていて、出力サイズが32
32の場合、合計32 32 = 1024のパラメータがあり、入力フィルタのサイズがあります。 5 5 3 = 75の場合、全体で75 1025 10のパラメーター
が必要になります。これは、ニューラルネットワークが学習するのに非常に時間がかかります。ただし、畳み込みネットワークにはパラメータ共有設定があります。つまり、フィルタ内のパラメータには5 5 3 + 1 = 76パラメータ(および1オフセットb)があり、合計10個のフィルタがあるため、760個のパラメータのみを学習する必要があります。 、これにより計算時間が大幅に短縮されます。
プーリング
一般に、プーリングは機能マップでの操作です。たとえば、機能マップは
224224です。64、プーリングは機能マップを充実させることです。また、機能マップ上の領域を選択します。この領域にはパラメータが含まれなくなりました。平均と最大の2つのプーリング方法があります。平均はボックス内の値を平均することであり、最大はボックス内の値を見つけることです。最大値。この例では、プーリング操作によって幅と高さを1/2に圧縮すると、ボリュームは元の1/4になり、フィーチャ情報が大幅に凝縮されます。プーリングはダウンサンプリングとも呼ばれます。プーリングレイヤーの重みパラメーターはありません。
最大プーリング
プーリングを行う場合、あなたはまた、いくつかのパラメータを指定する必要があります。ここで使用されるフィルタが2である
2、ストライド= 2、そして最大プーリングは、特徴マップ上で行われる4の4、および各領域の最大値が2となる2サイズ。
ネットワーク全体
コンボリューションの各レイヤーの後に、非線形アクティベーション関数を追加する必要があります。ここでのアクティベーション関数は、修正されていない線形ユニットReluを使用します。2回のコンボリューションの後、プーリングが追加され、次に2つのコンボリューション、プーリング、そして繰り返す。このプロセスでは、元の画像の特徴を継続的に抽出し、最終結果を完全に接続されたレイヤーに接続します。これは、特徴を取り出して分類などのタスクを実行するのと同じです。

おすすめ

転載: blog.csdn.net/weixin_44987948/article/details/109153982