卷积神经网络week2笔记

1.经典网络

LetNet-5

每个卷积层后面跟着一个池化层，最后跟着2个全连接层。随着层数 $n_{h}$ 和 $n_{w}$ 下降， $n_{c}$ 上升。参数共60K左右。

AlexNet

与LetNet相似但更大，表现更好。运用了Relu。使用了多个GPU。参数个数在60M左右

VGG-16

随着层数的增加， $n_{h}$ 和 $n_{w}$ 下降， $n_{c}$ 上升。参数在138M左右。

2.ResNet

残差块示意图如下：

残差块就是在普通的神经网络块中加了一个shortcut，使得

而多个残差块的结合就是残差网络：

残差网络在层数较深的情况下也能保持训练误差递减，而普通网络可能会出现训练误差先减少后增加的情况，如下图：

ResNet能取得如上效果的原因：

假设网络中均使用Relu激活函数，所以最后的输出 $a\geqslant 0$ 。这里我们给出 $a^{[l+2]}$ 的值：

如果使用L2正则化或者权重衰减，会压缩W和b的值。如果 $W^{[l+2]}=0$ 同时 $b^{[l+2]}=0$ ，那么上式就变成：

说明对于ResNet容易学习出上面这一恒等式，而对于普通的神经网络随着层数加深可能越来越难以选择出满足恒等式的参数。而这多出来的两层网络并没有降低它的效率，如果它们能学习到其他的信息会有更好的表现。为了确保 $z^{l+2}$ 和 $a^{l}$ 有相同的维度，ResNet中运用了许多same convolution。

对于ResNet，作业中给出了两种分类：the identity block（ $a^{l}$ 和 $a^{l+2}$ 有相同的维度）和the convolutional block（ $a^{l}$ 和 $a^{l+2}$ 有不相同的维度）。

the identity block如下图：

对于卷积操作，batchnorm，和relu，Keras中也给出了方法，示例如下：

X = Conv2D(filters = F1, kernel_size = (1, 1), strides = (1,1), padding = 'valid', name = conv_name_base + '2a', kernel_initializer = glorot_uniform(seed=0))(X)
X = BatchNormalization(axis = 3, name = bn_name_base + '2a')(X)
X = Activation('relu')(X)

对于shortcut的添加：

# Final step: Add shortcut value to main path, and pass it through a RELU activation (≈2 lines)
    X = Add()([X_shortcut, X])
    X = Activation('relu')(X)

the convolutional block: