CV论文笔记2—VGG

vgg在网络设计上有哪些独特的见解?

  • 使用更多的卷积层。vgg16整体架构同Alexnet相似,但是用堆叠的卷积块代替了原来单个的卷积。

  • 使用小的卷积核。两个3x3的卷积核堆叠,其感受野相当于5x5,三个相当于7x7。在保持感受野范围一致的情况下,使用多个小卷积代替一个大卷积,一是降低了计算量,二是引入了多个激活函数增加了非线性表示。

  • 特征图的大小和通道数保持简单的关系:卷积的通道数从64开始,每次池化使特征图大小降低一半后,通道的维数增加一倍,直到512为止。

需要重点关注的几个问题

  • 图片的采样方法:

    • 同Alexnet一样从大尺寸的图片中crop出224大小的图片。但具体是随机crop还是遍历crop论文没具体说明。怎么获得大尺寸的图片?一种是直接按短边缩放到固定尺寸S=256, 384。另一种是将S随机缩放到256-512这个范围内,采用不固定尺度的图片,相当于引入一定的尺度扰动。

    • 推理时也是先将图片缩放到Q。但计算最后的得分有两种方法,第一种延续Alexnet多crop取平均的方法。另一种是将FC改造成全卷积网络,最后输出的是一个位置得分图(通道数和类别数一致),再通过空间平均变成单一的得分向量

  • 网络权重初值的选择:

    层数加深的网络反向计算梯度时容易不稳定,导致网络难以收敛。因此设置好的初始值对网络的训练比较关键。最稳定的初始值就是采用预先训练好的模型权重。另外可通过梯度截断来控制梯度的恶化,后续Resnet网络的出现极大缓解了深度网络难训练的问题(复杂的梯度变化)

    扫描二维码关注公众号,回复: 8411016 查看本文章
  • vgg比Alexnet参数更多,为什么没有着重讨论过拟合问题?

    论文有提到小卷积可能有一定正则化作用。同时L2正则化,dropout都用,还有不同尺度多crop的数据增强。vgg网络整体的正则化力度其实不小。因此实际操作中过拟合可能不是作者遇到过的重要困难。

vgg整体的网络结构—coding相关

  • 没有数据归一化,但如果实际应用可以加上BN。卷积块是2-2-3-3-3的结构,完全通过kernel=2,s=2的池化来改变特征图的大小。同AlexNet全连接层有两层Dropout层,具体请参考论文原图

![image-20200103211550576](C:\Users\qjbook\AppData\Roaming\Typora\typora-user-images\image-20200103211550576.png)

猜你喜欢

转载自www.cnblogs.com/QJuse/p/12147285.html