1. ネットワーク構造
VGG には、コンボリューション カーネルのサイズとコンボリューション層の数に応じて、A、A-LRN、B、C、D、E の 6 つの構成があります。このうち、D と E が最も一般的に使用されており、これらが私たちが使用するものです。 VGG16 と VGG19 を呼び出します。
構造図の紹介:
- conv3-64 : 畳み込み 3 層目で次元が 64 になることを意味します 同様に、conv3-128 は畳み込み 3 層目で次元が 128 になることを意味します; 同時に、conv3-64 のボリュームが 64 であることも意味します.蓄積コア
- 入力 (224x224 RGB 画像) : 224 × 244 224\times244の入力画像サイズを指します。224×244カラー画像 (チャンネル3 3)3、つまり224 × 244 × 3 224\times244\times 3224×244×3;
- maxpool:最大プーリングを指します。vgg16 では、プーリングは2 ∗ 2 2*2を使用します。2∗2の最大プーリング方法
- FC-4096:完全接続層の 4096 ノードを指します。同様に、FC-1000 は完全接続層に 1000 ノードがあることを意味します。
- 最後に、vgg16 畳み込みの各層のスライディング ステップ サイズは
stride=1
、padding=1
畳み込みカーネル サイズは3 × 3 3\times 3です。3×3;
実際、最後の4096は経験値、1000 は分類されるカテゴリの数であり、この値より小さくすることはできません。すべてのアクティベーション ユニットはReLuです。13 の畳み込み層と 5 つのプーリング層が特徴抽出を担当し、最後の 3 つの完全に接続された層が分類タスクの完了を担当します。
2. VGG16モデルに必要なメモリ容量
実際、pytorch では関数コマンドを使用してパラメーターの数を計算できます。
3. VGGネットワークのメリット
2 3 × 3 3\times33×3 つの畳み込みを積み重ねることによって得られる受容野のサイズは、5 × 5 5\times55×5の畳み込み; while 33 × 3 3\times33×3 つの畳み込みを積み重ねることによって得られる受容野は、7 × 7 7\times77×7コンボリューション。
- パラメータを減らしてネットワークの深さを増やす
- これは、より多くの非線形マッピングを実行することと同等であり、ネットワークのフィッティング/表現能力を向上させることができます。