四大网络VGGNet

一、特点

1、对AlexNet改进，在第一个卷积层用了更小的卷积核和stride
2、多尺度训练（训练和测试时，采用整张图的不同尺度）

由此，VGG结构简单，提取特征能力强，应用场景广泛

由单尺度测试结果对比：
网络结构

二、不同结构的对比

VGG一共提供了6个网络版本，一次探究不同网络的效果对比。
下面简要分析一下各个版本的网络配置细节：

结构 A：与 AlexNet 类似，卷积层分为5个stage，3个全连接层，不同的是，卷积层用的都是3x3大小的卷积核；
结构 A-LRN：保留 AlexNet 中的 LRN 操作，其他结构与A相同；
结构 B：在 A 的 stage2 和 stage3 分别增加一个3x3的卷积层，共有10个卷积层了；
结构C：在 B 的基础上，stage3，stage4，stage5 分别增加一个1x1的卷积层，有13个卷积层，总计16层；
结构D：在 C 的基础上，stage3，stage4，stage5 分别增加一个3x3的卷积层，有13个卷积层，总计16层；
结构E：在 D 的基础上，stage3，stage4，stage5 分别再增加一个3x3的卷积层，有16个卷积层，总计19层。

结构效果对比图

各结构效果对比：

A 与 A-LRN 比较：A-LRN 结果没有 A 好，说明 LRN 作用不大；
A 与 B, C, D, E 比较：A 是这当中层数最少的，相比之下 A 效果不如 B,C,D,E，说明层数越深越好；
B 与 C 比较：增加 1x1 卷积核，增加了额外的非线性提升效果；
C与D比较：3x3 的卷积核（结构D）比 1x1（结构C）的效果好。(注意！！！！)
C、D、E之间的比较，多尺度会提高准确率

三、对卷积核优点的讨论

1、为什么使用3×3的卷积核？
（1）3个3×3的卷积核的感受野与一个7×7的卷积核的感受野等效，但是中间加入了激活函数，与一个7×7的卷积核相比，深度更深且增加了非线性
（2）参数量减少：
（C×3×3×C）×3 = 27C^2
C×7×7×C = 49C^2
2、1×1卷积核的作用（用其他的卷积核虽然也能实现这两个功能，但是参数量大）
（1）增加非线性
（2）升维和降维

四、训练数据预处理

第一步：将图片同性缩放，最小的边长为256

第二步：随机截取224×224的图像块

第三步：对裁剪的图像块进行随机水平翻转和RGB颜色变换

补充：也可以使用dense evalation 不裁剪直接将图片放进网络，将后面的全连接层改为卷积层