CV论文笔记2—VGG

vgg在网络设计上有哪些独特的见解？

使用更多的卷积层。vgg16整体架构同Alexnet相似，但是用堆叠的卷积块代替了原来单个的卷积。
使用小的卷积核。两个3x3的卷积核堆叠，其感受野相当于5x5，三个相当于7x7。在保持感受野范围一致的情况下，使用多个小卷积代替一个大卷积，一是降低了计算量，二是引入了多个激活函数增加了非线性表示。
特征图的大小和通道数保持简单的关系：卷积的通道数从64开始，每次池化使特征图大小降低一半后，通道的维数增加一倍，直到512为止。

需要重点关注的几个问题

图片的采样方法：
- 同Alexnet一样从大尺寸的图片中crop出224大小的图片。但具体是随机crop还是遍历crop论文没具体说明。怎么获得大尺寸的图片？一种是直接按短边缩放到固定尺寸S=256, 384。另一种是将S随机缩放到256-512这个范围内，采用不固定尺度的图片，相当于引入一定的尺度扰动。
- 推理时也是先将图片缩放到Q。但计算最后的得分有两种方法，第一种延续Alexnet多crop取平均的方法。另一种是将FC改造成全卷积网络，最后输出的是一个位置得分图（通道数和类别数一致），再通过空间平均变成单一的得分向量
网络权重初值的选择：

层数加深的网络反向计算梯度时容易不稳定，导致网络难以收敛。因此设置好的初始值对网络的训练比较关键。最稳定的初始值就是采用预先训练好的模型权重。另外可通过梯度截断来控制梯度的恶化，后续Resnet网络的出现极大缓解了深度网络难训练的问题（复杂的梯度变化）

扫描二维码关注公众号，回复： 8411016 查看本文章
vgg比Alexnet参数更多，为什么没有着重讨论过拟合问题？

论文有提到小卷积可能有一定正则化作用。同时L2正则化，dropout都用，还有不同尺度多crop的数据增强。vgg网络整体的正则化力度其实不小。因此实际操作中过拟合可能不是作者遇到过的重要困难。

vgg整体的网络结构—coding相关

没有数据归一化，但如果实际应用可以加上BN。卷积块是2-2-3-3-3的结构，完全通过kernel=2，s=2的池化来改变特征图的大小。同AlexNet全连接层有两层Dropout层，具体请参考论文原图

![image-20200103211550576](C:\Users\qjbook\AppData\Roaming\Typora\typora-user-images\image-20200103211550576.png)