论文阅读笔记--VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

这篇论文主要工作就是探索网络结构,对大规模图像识别任务,网络深度对于最终模型准确率的影响,带有小的卷积核(3*3)的网络,深度的增加会提高准确率,直到网络深度到达16-19层。

根据这个论文的摘要,我想到两个关键点:

  • 为什么卷积核是3*3
  • 为什么到16-19层精度不再提高

卷积核大小

在这篇论文中,我最感兴趣的点在于,卷积核大小的设置。

两个3*3的卷积层叠加,中间不加池化层,那么它的有效感受野(effective receptive field)的大小为5*5,其实就相当于一个5*5的卷积层。

三个3*3卷积层就相当于一个7*7的卷积层,至于为什么,可以画图看一下,很直观。

那么为什么选择3*3的卷积层

  • 3*3卷积核是能够覆盖上/下,左/右的最小尺寸
  • 多个卷积层叠加就有多个激活层(非线性映射),使得决策函数更有判别力
  • 多个小卷积核的卷积层叠加会大大减小参数的数量

对于最后一点,举个例子解释一下:

3个3*3的卷积层     对比     1个7*7的卷积层

他们的感受野是一样的,假设它们的输入和输出通道都是C

3个3*3的卷积层:

1个卷积核的参数为3*3*C,有C个卷积核参数为3*3*C*C  3个卷积层就是27*C^2

1个7*7的卷积层:

1个卷积核的参数为7*7*C,有C个卷积核参数为7*7*C*C  1个卷积层就是49*C^2

可以看到,参数大大的减小了。

扫描二维码关注公众号,回复: 2601178 查看本文章


此外,1*1的卷积核也是一种不影响感受野,但是会增加决策函数非线性的一种方式。

网络深度

下图是网络结构的具体构造。

从作者的实验对比来看,D结构的设置的结果普遍高于其他的设置。

至于为什么,也没有严谨的数学证明。不过,实践是检验真理的唯一标准,从实验结果可以证明,在一定范围内,网络深度的增加有利于精度的提升。


猜你喜欢

转载自blog.csdn.net/weixin_39953502/article/details/80797754