ILSVRC历届冠军论文笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/KangRoger/article/details/56522132

ImageNet Large Scale Visual Recognition Challenge是图像分类领域的比赛,记录一下历届冠军/经典论文的笔记。

LeNet

LeNet并没有参与ILSVRC比赛,但是它是卷积网络的开上鼻祖。LeNet主页上可以看到其详细信息,它是用来识别手写邮政编码的,论文可以参考Haffner. Gradient-based learning applied to document recognition

LeNet又称LeNet-5,它是一个7层的网络,
它的深度为5,包含2个卷积层和2个全连接层和1个Guassian connection。如下图:
1_01.jpg
它的输入数据height和width是[32x32],MINIST数据集

  • 第1层卷积核大小[5x5],步长为1,输出为[28x28x6]。
  • 第2层是池化层,进行下采样。池化核[2x2],步长为2,因此输出为[14x14x6]。论文中提到的池化方法,类似卷积,用[2x2]权重和感受视野做内积运算,得到结果;既不是MAX池化,也是不AVERAGE池化。
  • 第3层是卷积层,共有16个卷积核,卷积核size[5x5]。通常卷积核depth和输入的depth相同,这里并不是。论文中定义了一个Connection Table,通过这个Table,可以看出每个卷积核和前一层那些feature map相连接。具体可以参考论文。之所以卷积核depth和输入depth不同,是因为1、non-complete连接可以减少参数个数;2、更重要的是打破了对称结构。这样得到的输入后,不同的feature map提取了不同的特征,因为它们输入不同。得到的输出为[10x10x16]
  • 第4层是下采样层,和第二层的下采样类似。得到的输出为[5x5x16]。
  • 第5层是卷积层,卷积核[5x5],个数为[120],depth为[16];这样得到的输出为[1x1x120]。这样看来本质是一个全连接层,用卷积层是因为输入可能变大,这样得到的输出就不再是[1x1]了。
  • 第6层是全连接层,输出为大小为84。这一层输出经过了非线性函数sigmoid。
  • 第7层是输出层,它有欧式径向基函数(Euclidean Radial Basis Function)RBF组成,没类一个单元,包含84个输出。单元 yi :
    yi=j(xjwij)2

    也就是,每个RBF单元计算输出向量和参数向量之间的欧式距离。和参数向量越远,输出越大;RBF的输出可以理解为衡量输入模式和RBF类别相关联模型之间的惩罚(匹配程度)。从概率角度看,RBF输出可以看做是和第6层输出的高斯分布的非负log-likelihood。给定一个输入,loss函数使得第6层输出和RBF参数向量足够接近。

LeNet是最早的卷积神经网络结构,它的开创了神经网络基本结构CONV->POOL->非线性算子;在此之后,卷积神经网络沉寂多年。

AlexNet

AlexNet(http://www.cs.toronto.edu/~fritz/absps/imagenet.pdf)是2012年ILSVRC的冠军,且准确率远超第二名(top5 error rate15.3%,第二名为26.2%)。AlexNet介绍论文为ImageNet Classification with Deep Convolutional Neural Networks

AlexNet结构如下:
1_02.jpg

上图采用了模型并行,网络分在了2个GPU中。AlexNet共有8个包含参数的层,其中5个卷积层,3个全连接层,最后一个全连接层后面是softmax层。具体网络结果不再赘述,总结一下AlexNet创新点:

  • 使用了ReLU非线性激活替代tanhsigmod,加快了训练速度。因为训练网络使用梯度下降法,非饱和的非线性函数训练速度快于饱和的非线性函数。下图是训练4层网络准确率和迭代次数关系,使用数据为CIFAR-10:
    1_03.jpg

  • 使用了LRN(Local Response Normalization)。LRB已经被证实基本没有效果,不再介绍。

    扫描二维码关注公众号,回复: 3413105 查看本文章
  • 使用重叠的Pooling
    CNNs中的POOL层一般不会重叠,即步长大于等于池化核。但是AlexNet中,池化核的感受视野之间有重叠,例如池化核[3x3],步长却为2。

  • 使用了数据增强。为了减小过拟合。数据增强包括:1、随机crop图像。2、改变图像RGB通道强度。

  • 使用了Dropout。也是为了减少过拟合。使用了Dropout后,每次前向/后向传播,网络结构都不相同;训练完成后,再把这些网络组合起来。使用了Dropout后,会增加训练时迭代的次数。

AlexNet的意义在于,使得CNNs重新回到人们视野,再次掀起来对CNNs研究的热潮。

ZFNet

ZFNet是2013你那ILSVRC的冠军。ZFNet论文为Visualizing and Understanding Convolutional Networks。ZFNet的网络结构,是在AlexNet上进行了微调:
1_04.jpg

ZFNet的意义不在于它获得了2013年ILSVRC的冠军,而是解释了为什么CNNs有效、怎么提高CNN性能。其主要贡献在于:

  • 使用了反卷积,可视化feature map。通过feature map可以看出,前面的层学习的是物理轮廓、边缘、颜色、纹理,后面的层学习的是和类别相关的抽象特征。

  • 与AlexNet相比,前面的层使用了更小的卷积核和更小的步长,保留了更多特征。

  • 通过遮挡,找出了决定图像类别的关键部位。

  • 通过实验,说明了深度增加时,网络可以学习到更好的特征。

GoogLeNet

GoogLeNet是2014年ILSVRC冠军。具体可以参考Going Deeper with Convolutions。GoogLeNet为22层,比以往网络都深,结构参数如下:
1_05.jpg

GoogLeNet创新了新的网络结构形式,其特点如下:

  • 使用了1x1卷积;使用1x1卷积,1、增加了深度,2、降维,减小计算量。

  • 使用了Inception结构。其结构如下:
    1_06.jpg
    1x1卷积目的已知。卷积核3x3、5x5是为了方便(pad=1和pad=2保持空间大小不变),额外增加一个池化会有额外益处。低层特征,经过Inception结构提取,又把特征混合到一起,空间大小不变。连续重复这样的结构,组成了GoogLeNet。

  • 使用average pooling代替了full-connect。最后一层为softmax用来分类。

  • 前面几层依然是CONV-POOL-CONV-CONV-POOL,后面才是Inception结构。

VGGNet

VGGNet是Oxford大学Visual Geometry Group提出的,目的是研究深度对卷积网络的影响。VGGNet使用简单的3x3卷积,不断重复卷积层(中间有池化),最后经过全连接、池化、softmax,得到输出类别概率。VGGNET共有6种不同类型配置,命名为A-E,深度从11(8个卷积核3个全连接)到19(16个卷积核3个全连接);每个卷积层的depth,从一开始的64到最后的512(每经过一个max-pooling,就增加一倍),具体网络配置如图:
1_07.jpg

VGGNET采用AlexNet思想,网络架构为CONV-POOL-FC这种形式,其卷积层所有卷积核都是3x3,这样pad=1时,卷积层输入输入空间size不变。VGGNET特点包括:

  • 所有卷积层都是3x3。连续多个卷积层,后面卷积层神对于输入的感受视野会变大,如连续2个3x3卷积层,第二层每个神经元感受视野为5x5;连续3个3x3卷积层,第三层每个神经元感受视野为7x7。这样做,1、多个非线性表达能力强于1个非线性。第二卷少了参数数量。depth为 C 时,连续3个卷积核参数数量 3(3×3C2)=27C2 ,单个7x7卷积层参数个数 7×7=49C2

  • 1x1卷积核,在不影响卷积层感受视野情况下,增加非线性,增强表达能力。

ResNet

ResNet是2015年ILSVRC的冠军,其论文为Deep Residual Learning for Image Recognition。ResNet也是创新了网络的结构形式,引入了残差网络(residual net)。ResNet的残差结构如下:
1_08.jpg
未加残差结构时,学习映射为 H(x) ,但是 H(x) 不容易学;加上参加结构后,学习映射变为 F(x)=H(x)x ,学习 F(x) 比学习 H(x) 容易,那么通过学习 F(x) 来得到 H(x)=F(x)+x ,这就是residual结构。

ResNet主要创新:

  • 发现degradation problem,更深的网络准确率未必更好。
  • 引入残差结构,是深层网络优化变容易,使网络更深。

总结

同构上面各个网络,可以看出,网络变得越来越深,准确率变得越来越低。
1_09.jpg

猜你喜欢

转载自blog.csdn.net/KangRoger/article/details/56522132