【基于tensorflow的学习】VGG、Goolenet、Resnet

1.VGG

VGG实际上就是Alexnet的“加深版”,它其中比较出名的就是VGG16、VGG19。

它的加深不仅仅是层数的加深,VGG的conv-pool都是五层,但是它的特点在于每一层的conv-pool当中是几层卷积层串联之后再连接池化层的。还有它的一些训练技巧。如图所示:

它为什么串联呢?因为两个3x3的卷积层叠加,等价于一个5x5的卷积核的效果,3个3x3的卷积核的叠加相当于一个7x7的卷积核,而且参数更少.大约是7x7卷积核卷积层的(3*3*3)/(7*7)=0.55.而且拥有和7x7卷积核一样的感受视野,三个卷积层的叠加,经过了更多次的非线性变换,对特征的学习能力更强。如图所示:

 VGGnet的技巧:

  1. 在训练时,先训练级别A的简单网络,再复用A网络的权重来初始化后面的几个复杂模型,这样训练收敛的速度更快;
  2. 在预测时,VGG采用Multi-Scale的方法,将图像scale到一个尺寸Q,并将图片输入卷积网络计算。然后在最后一个卷积层用滑窗的方式进行分类预测,将不同窗口的分类结果平均,再将不同尺寸Q的结果平均得到最后结果,这样可以提高图片数据的利用率并提升预测准确率。
  3. 在训练中,VGGnet还使用了Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S,然后再随机裁剪224*224的图片,这样能增加很多数据量,对于防止模型过拟合有很不错的效果。实践中,作者令S在[256,512]这个区间取值,使用Multi-Scale忽的多个版本的数据,并将多个版本的数据合在一起进行训练。

 详细解释和代码可以参考:https://blog.csdn.net/u014281392/article/details/75152809

2.Google Inception Net

这个网络结构的神经学基础是Hibbian原理:神经反射活动的持续与重复会导致神经元链接稳定性的持久提升,当两个神经元细胞A和B距离很近,并且A参与了对B重复、持续的兴奋,那么某些代谢变化会导致A将作为能使B行风的细胞。意思就是“一起发射的神经元会连在一起”

受这个神经学的启发,另一篇文章提出:一种聚类想法,我们应该把“相关性”高的一簇神经元节点连接在一起。而在图片数据中,天然的就是临近区域的数据相关性高,因此相邻的像素点被卷积操作连接在一起。而我们可能有多个卷积核,在同一空间位置但在不同通道的卷积核的输出结果相关性极高。因此1*1卷积就可以很自然地把这些相关性很高的、在同一个空间位置但是不同通道的特征连接在一起,这就是为什么1*1卷积这么频繁地应用到IceptionNet中的原因。然后用稍微大一点的卷积核3*3、5*5以提取高维度的特征的相关性。最后通过四个分支将相关性很高的节点连接在一起,构建出很高效的符合Hebbian原理的稀疏结构。

V2的特点是学习了VGG、使用了卷积串联,还有就是用了著名的Batch Normalization方法(BN在用于神经网络某层时,会对每一个mini-batch的内部进行标准化处理,是输出规范化到N(0,1)的正态分布)。

V3就是把7*7卷积拆成1*7和7*1,这样可以节约参数、减轻过拟合;还优化了Inception Module的结构,有35*35/17*17/8*8三种不同结构。V4就是结合了Resnet。详情可见下面:

https://blog.csdn.net/App_12062011/article/details/62216987

代码实现:https://blog.csdn.net/akadiao/article/details/78634431

3.Resnet

它的重要结构就是skip connection:

 如果x的维度和F(x)不一样,则可以运用y=F(x)+Wx,乘以一个权重矩阵来使得两者维度一致,可以相加。

为什么这个结构有用呢:转自:https://www.jianshu.com/p/3d79e722ee56

假设从下一层网络传回来的梯度为1(最右边的数字),后向传播的梯度数值如下面gif图红色数字表示:

那么这里可以看到,本来从上一层传过来的梯度为1,经过这个block之后,得到的梯度已经变成了0.0001和0.01,也就是说,梯度流过一个blcok之后,就已经下降了几个量级,传到前一层的梯度将会变得很小!

这就是梯度弥散。假如模型的层数越深,这种梯度弥散的情况就更加严重,导致浅层部分的网络权重参数得不到很好的训练,这就是为什么在Resnet出现之前,CNN网络都不超过二十几层的原因。

防止梯度弥散的办法:

既然梯度经过一层层的卷积层会逐渐衰减,我们来考虑一个新的结构,如图5:

假如,我们在这个block的旁边加了一条“捷径”(如图5橙色箭头),也就是常说的“skip connection”。假设左边的上一层输入为x,虚线框的输出为f(x),上下两条路线输出的激活值相加为h(x),即h(x) = F(x) + x,得出的h(x)再输入到下一层。 

图6

当进行后向传播时,右边来自深层网络传回来的梯度为1,经过一个加法门,橙色方向的梯度为dh(x)/dF(x)=1,蓝色方向的梯度也为1。这样,经过梯度传播后,现在传到前一层的梯度就变成了[1, 0.0001, 0.01],多了一个“1”!正是由于多了这条捷径,来自深层的梯度能直接畅通无阻地通过,去到上一层,使得浅层的网络层参数等到有效的训练!

以往的经典结构:

猜你喜欢

转载自blog.csdn.net/qq_29567851/article/details/84191480