深度学习总结：常见卷积神经网络(2)

深度学习总结：常见卷积神经网络（2）

Inception v1
Inception v2

BN层

Inception v3

非对称卷积分解

Inception v4
总结

　　上一篇博客主要回顾了VGG和Resnet，这一篇主要回顾一下GoogLeNet系列。

Inception v1

Inception v1提出于2014年，和VGG是同一年，使用了Inception的结构。
　　首先inception v1的层数是22层，但他的参数量却只有Alexnet的十二分之一。提升卷积神经网络的一个有效方法就是加大网络，无非就就是从宽度和深度两方面考虑，但这样会带来两个缺点：1参数变多，同时以造成过拟合，2网络的加深，比较难训练，同时梯度消失不可避免。
　　Inception同时从深度和宽度两方面考虑。同时考虑逐层的构造网络，如果数据集的概率分布能够被一个神经网络所表达，那么构造这个网络的最佳方法是逐层构筑网络，即将上一层高度相关的节点连接在一起。几乎所有效果好的深度网络都具有这一点，不管AlexNet VGG堆叠多个卷积，GoogLeNet堆叠多个inception模块，还是ResNet堆叠多个resblock。在构筑网络时，还考虑了稀疏的结构：人脑的神经元连接就是稀疏的，因此大型神经网络的合理连接方式也应该是稀疏的。稀疏的结构对于大型神经网络至关重要，可以减轻计算量并减少过拟合。卷积操作（局部连接，权值共享）本身就是一种稀疏的结构，相比于全连接网络结构是很稀疏的。
　　- 深度：采用了22层的结构，9个inception堆叠，同时为了避免梯度消失的问题，同是将梯度传递到较浅的层，在不同的层增加了辅助分类器输出Loss，这样做的另一个好处是在分类中考虑了中间层和浅层的特征。
在这里插入图片描述
另外，在网络的开始用了7×7的卷积，目的是为了降低图像的特征层的大小，减少后面的计算量。
　　- 宽度：Inception结构，利用 size 为 1、 3、 5 不同大小的卷积核，同一层网络在不同通道的卷积核输出结果的相关性极高，1* 1的卷积核可以自然地把这些相关性高的同一位置不同通道的特征结合起来，其他尺寸的卷积核保证了特征的多样性。
在这里插入图片描述
　　上图即为Inception Module，其中3 × 3和 5 × 5卷积之前的1 ×1的卷积核和池化层之后的 1 × 1的卷积核的作用是为了减少网络参数，同时方便之后的concat而降维。
　　训练和测试的trick，通过resize和crop对图像进行增强。
　　结论，稀疏的结构是有用的，Inception structure 提升了精度，但是计算消耗对比于更浅和更窄的网络增加的较少。

Inception v2

Inception v2 提出于2015年，其主要结构相对于Inception v1的变化不是很大，主要贡献点在于提出了BN层，即BatchNormalization。
　　论文的出发点在于，神经网络的在训练过程中，每一层输入数据的分布式不断变化的，网络结构需要不断的去适应由于输入数据分布带来的变化。每层数据的输入，都会受到前面所有层的影响。很小的参数的变化，都会对后面的数据输入造成很大的扰动，层数越深，扰动越大。因此，作者认为，如果对每一层的数据输入，固定其分布，能够加速深度模型的训练。

BN层

在这里插入图片描述
　　如果对每一层的数据进行归一化，即变成零均值一方差，由于数据集中到sigmoid的近似线性部分，破坏了网络的非线性。为了解决这个问题，作者在归一化后面加入了尺度的变换和平移，保证模型的非线性能力。其中λ和β都是可以学习的。
在这里插入图片描述
　　归一化具有可导性，因此可以端到端的训练。
　　在inference时，

　　另外，归一化的过程中，由于需要减去均值的操作，z=g(Wu+b)中的b可以省去，变成z=g(BN(Wu))。

其他trick：

增大了学习率，因为BN层的存在，不用担心因学习率过大而导致的小变化引起的大扰动问题。
借鉴了VGG，采用凉的3×3的卷积层代替5×5的卷积层。
BN层具有很强的泛化能力，可以替代dropout。
使用了随机梯度下降SGD，作者在论文一开始就说了大段SGD的好处。
由于BN层的存在，可以去除LRN

结论，BN层可以解决数据分布变化的问题（covariate shift）。可以增大学习率，加快了训练的速度。

Inception v3

Inception v3提出于2015年，和v2一样，其基本框架结构和v1一致，主要是对原来结构的优化和改进。
首先，论文介绍了卷积神经网络的主要设计原则，这些原则主要是通过大量的实验的出来的：

要避免表示的瓶颈，尤其是在网络的前面层，网络中特征层的尺寸越来越小，但是这个过程要平稳，前面的层不能压缩的太过，
高维度的特征更容易处理，增加维度有利于生成更多解耦的信息，方便训练的更快。
在低维度进行空间的聚合，可以减少信息的损失，因为低维度空间中相近的信息相互关联。
要平衡好深度和宽度，虽然同时增加有利于提高网络的性能，但是会增加计算的消耗。
Inception v3的主要贡献点在于卷积的分解。
在VGG中，提出，可以用两个3×3来代替一个5×5的卷积核，可以证明，其感受野是一致的。

非对称卷积分解

受到之前vgg的启发，作者将原来3×3的卷积进一步分解，用3×1+1×3的卷积来代替3×3的卷积。如下图所示
在这里插入图片描述
这种卷积分解的方法可以进一步减少网络的参数，加快网络的速度。
相应的，原始版本的Inception Module也变为下图所示

实验证明，上述的结构在网络的前面几层效果一般，但是在中间层可以取得很好的效果。
其他trick：

辅助分类器如果加入BN层或者，dropout，网络效果会变得更好，regularizer的作用。
降低特征图的尺寸，双线性操作，在降低特征尺度的同时，增加了channel。

结论，作者提出了几条扩大网络规模的设计准则，同时提出了卷积核分解的方法，另外其他的trick也都提高了网络的性能。

Inception v4

之前介绍的v2,v3版本在结构上相比于v1并不是很大，而v4版本结构的变化较大，论文里不仅提出了 Inception V4的，还提出了基于inception 和Resnet 的Inception-Resnet-v1和Inception-Resnet-v2。
由于Inception v4的改进主要是网络结构的改进，这里不再细说，详细结构自行查阅论文。其主要贡献点在于使用并行的结构，不对称的卷积，并且用了大量的1×1的卷积核进行维度的变换。
v4版本的inception主要有以下三种，
在这里插入图片描述

总结

本文主要总结了inception从v1的提出，到v2 v3 v4不同版本的改进，简单介绍了每篇论文的创新点和改进点。