1.VGG

VGG实际上就是Alexnet的“加深版”，它其中比较出名的就是VGG16、VGG19。

它的加深不仅仅是层数的加深，VGG的conv-pool都是五层，但是它的特点在于每一层的conv-pool当中是几层卷积层串联之后再连接池化层的。还有它的一些训练技巧。如图所示：

它为什么串联呢？因为两个３ｘ３的卷积层叠加，等价于一个５ｘ５的卷积核的效果，３个３ｘ３的卷积核的叠加相当于一个７ｘ７的卷积核，而且参数更少．大约是7x7卷积核卷积层的（３＊３＊３)/(7*7)=0.55．而且拥有和７ｘ７卷积核一样的感受视野，三个卷积层的叠加，经过了更多次的非线性变换，对特征的学习能力更强。如图所示：

VGGnet的技巧：

在训练时，先训练级别A的简单网络，再复用A网络的权重来初始化后面的几个复杂模型，这样训练收敛的速度更快；
在预测时，VGG采用Multi-Scale的方法，将图像scale到一个尺寸Q，并将图片输入卷积网络计算。然后在最后一个卷积层用滑窗的方式进行分类预测，将不同窗口的分类结果平均，再将不同尺寸Q的结果平均得到最后结果，这样可以提高图片数据的利用率并提升预测准确率。
在训练中，VGGnet还使用了Multi-Scale的方法做数据增强，将原始图像缩放到不同尺寸S，然后再随机裁剪224*224的图片，这样能增加很多数据量，对于防止模型过拟合有很不错的效果。实践中，作者令S在[256,512]这个区间取值，使用Multi-Scale忽的多个版本的数据，并将多个版本的数据合在一起进行训练。

详细解释和代码可以参考：https://blog.csdn.net/u014281392/article/details/75152809

2.Google Inception Net

这个网络结构的神经学基础是Hibbian原理：神经反射活动的持续与重复会导致神经元链接稳定性的持久提升，当两个神经元细胞A和B距离很近，并且A参与了对B重复、持续的兴奋，那么某些代谢变化会导致A将作为能使B行风的细胞。意思就是“一起发射的神经元会连在一起”

受这个神经学的启发，另一篇文章提出：一种聚类想法，我们应该把“相关性”高的一簇神经元节点连接在一起。而在图片数据中，天然的就是临近区域的数据相关性高，因此相邻的像素点被卷积操作连接在一起。而我们可能有多个卷积核，在同一空间位置但在不同通道的卷积核的输出结果相关性极高。因此1*1卷积就可以很自然地把这些相关性很高的、在同一个空间位置但是不同通道的特征连接在一起，这就是为什么1*1卷积这么频繁地应用到IceptionNet中的原因。然后用稍微大一点的卷积核3*3、5*5以提取高维度的特征的相关性。最后通过四个分支将相关性很高的节点连接在一起，构建出很高效的符合Hebbian原理的稀疏结构。

V2的特点是学习了VGG、使用了卷积串联，还有就是用了著名的Batch Normalization方法（BN在用于神经网络某层时，会对每一个mini-batch的内部进行标准化处理，是输出规范化到N（0,1）的正态分布）。

V3就是把7*7卷积拆成1*7和7*1，这样可以节约参数、减轻过拟合；还优化了Inception Module的结构，有35*35/17*17/8*8三种不同结构。V4就是结合了Resnet。详情可见下面：

https://blog.csdn.net/App_12062011/article/details/62216987

代码实现：https://blog.csdn.net/akadiao/article/details/78634431

3.Resnet

它的重要结构就是skip connection：

如果x的维度和F（x）不一样，则可以运用y=F(x)+Wx，乘以一个权重矩阵来使得两者维度一致，可以相加。

为什么这个结构有用呢：转自：https://www.jianshu.com/p/3d79e722ee56

假设从下一层网络传回来的梯度为1（最右边的数字），后向传播的梯度数值如下面gif图红色数字表示：

那么这里可以看到，本来从上一层传过来的梯度为1，经过这个block之后，得到的梯度已经变成了0.0001和0.01，也就是说，梯度流过一个blcok之后，就已经下降了几个量级，传到前一层的梯度将会变得很小！

这就是梯度弥散。假如模型的层数越深，这种梯度弥散的情况就更加严重，导致浅层部分的网络权重参数得不到很好的训练，这就是为什么在Resnet出现之前，CNN网络都不超过二十几层的原因。

防止梯度弥散的办法：

既然梯度经过一层层的卷积层会逐渐衰减，我们来考虑一个新的结构，如图5：

假如，我们在这个block的旁边加了一条“捷径”（如图5橙色箭头），也就是常说的“skip connection”。假设左边的上一层输入为x，虚线框的输出为f(x)，上下两条路线输出的激活值相加为h(x)，即h(x) = F(x) + x，得出的h(x)再输入到下一层。

图6

当进行后向传播时，右边来自深层网络传回来的梯度为1，经过一个加法门，橙色方向的梯度为dh(x)/dF(x)=1，蓝色方向的梯度也为1。这样，经过梯度传播后，现在传到前一层的梯度就变成了[1, 0.0001, 0.01]，多了一个“1”！正是由于多了这条捷径，来自深层的梯度能直接畅通无阻地通过，去到上一层，使得浅层的网络层参数等到有效的训练！

以往的经典结构：

【基于tensorflow的学习】VGG、Goolenet、Resnet

1.VGG

2.Google Inception Net

3.Resnet

猜你喜欢