1. 基本構造
CNN の一般的なモデルは、畳み込み層+プーリング層+全結合層+活性化関数 として要約できます。
VGG などの比較的大規模なネットワークでは、一般に CNN を構成単位としてスタックし、複数の内部畳み込みカーネルとプーリングをスタックすることもできます。各部の機能は次のとおりです。
畳み込み: 特徴抽出
プーリング: 次元削減と過学習の防止
Flatten : 2 次元の特徴データを平坦化します (1 次元に拡張します)。
全結合層: 集約された情報
活性化関数:ソフトマックス(複数分類)、シグモイド(二分類)
2. 具体的な構成
①畳み込み演算
コンボリューション カーネルを使用して入力上をスライドし、コンボリューション カーネルの対応する位置の値を乗算して合計します。コンボリューション カーネルが配置されている領域が受容野です。
受容野: 入力に対するコンボリューション カーネルの投影。一度に一部しか見ることができないため、部分的な接続と同等です。
Ps. 部分的な接続は完全な接続を基準としています
外側に 0 をパディングすることはパディング と呼ばれ、エッジ フィーチャが無視されないようにするために使用されます。
コンボリューションの重要性は、大きな元の画像を小さな出力に変換することであり、各コンボリューション カーネルには、元の画像の特徴抽出を抽出する対応する特徴マップがあります。
多次元畳み込み: たとえば、カラー画像の 3 次元畳み込みは、その 3 つのカラー チャネルの 2 次元畳み込みと同等です。
②プーリング
特定の領域の値を一定の変換した後の値を出力します (領域全体の値を置き換えます)。さまざまな計算方法に従って、平均プーリングと最大プーリング に分けることができます。プーリングは「ダウンサンプリング」とも呼ばれます。 。
プーリングの機能は以下のとおりです。 ①パラメータの量を削減します。
②過学習を防ぐ(データ本来の性質を保つ)
③ネットワークに変位不変性をもたらす(つまり、一定範囲の画像の変位は計算結果に影響を与えず、この性質はプーリングを取り除くことで解消できる)
③平らにする
2 次元の特徴マップを1 次元の定数ベクトルに拡張します(完全に接続された層に送信するため)。
④全結合層
これは、特徴マップと出力の間のマッピングを確立するために使用されます。
⑤アクティベーション機能
参照:ニューラルネットワーク (10) 活性化関数 DLC https://blog.csdn.net/weixin_37878740/article/details/126658339