上周课程讲述了CNN的在多维上的实现过程，以及重要的卷积层（convolution、pooling、stride等，笔记链接）。这周课程将通过一些经典的网络层来学习如何设置这些超参数。

outline

Classic networks:
ResNet
Inception
practical advice for using convnets
迁移学习
数据增强（data augmentation）

common methods
color shifting

Classic networks:

LeNet-5

利用Lenet-5网络实现手写数字识别，输入是一个手写数字的灰度图像，输出是0-9的概率值，所以在最后一层用softmax。

在这里插入图片描述
模型中的参数大概有60,000个（ $KaTeX parse error: Expected 'EOF', got '\*' at position 3: (5\̲*̲5+1)*6+(5\*5+1)…$ ），相比于现在包含千万级别参数的网络模型来说已经算是小模型了。
值得注意的是，模型遵循的模式是：每一层的高度和宽度在逐层下降，而通道数（channel）却在逐层上升；另一种模式则是：conv pool conv pool fc fc output 这种层排序。

在[LeCun et al., 1998. Gradient-based learning applied to document recognition]文章中常用sigmoid/tanh函数而不用ReLu；在现代的计算方式中每个filter 处理了每一维的通道，而在过去为了节省计算量和参数量，原始LetNet-5计算filter方式会更加复杂，其中不同的filter会处理输入快的不同通道；此外文章还提到在池化后有个非线性处理，例如sigmoid。（推荐阅读论文的ch2/ch3）

AlexNet

AlexNet 与 LeNet-5 很相似，但其网络结构比AlexNet更大更深，AlexNet大概有6千万参数。AlexNet 比LeNet 更好的因素是ReLu函数使用。

论文[ImageNet classification with deep convolutional neural natworks 201 2]还包含了多个GPU同步训练模型的方法以及多出local response normalization（局部响应归一层LRN）。

VGG
VG结构更加简单，更能关注卷积层。

VGG模型在前两层用了卷积层（3 $KaTeX parse error: Expected 'EOF', got '\*' at position 1: \̲*̲$ 3 filter, s=1, same padding），VGG-16中的16表示有16层的网络，大概包含138M个参数。

论文[Very deep convolutional networks for large-scale image recognition,2015]
在这里插入图片描述

ResNet

利用残差块可以得到更深层的网络模型。

skip connection & residual block
由 $a^{[l]}$ 按部就班传递到 $a^{[l+2]}$ 层的过程叫做 main plain ，在此基础上利用short cut （从一层中激活并传递给下一层或更深的网络层），将原过程变成一个残差块。
在这里插入图片描述
需要注意的是， $a^{[l]}$ 通过skip connection到达 $a^{[l+2]}$ 层之前时，应在Relu函数之前。

上图是一个典型的由5个残差块堆叠而成的残差网络（Residual Network）

实际训练时，随着网络层数的增加，训练误差会先减后增，这是因为网络层数增加会导致梯度消失或梯度爆炸，而残差网络可以解决这类问题，随着层数不断增加，训练误差会不断减少直至不变。
在这里插入图片描述
为什么残差神经网络是有效的？

易于学习恒等函数
在原模型中添加残差网络层仍可以保持模型的训练能力，甚至在一些幸运的情况下可以得到更好的参数。

由于 $a^{[l]}$ 是通过ReLu输出的，所以 $a^{[l]}$ >=0，g( $a^{[l]}$ )= $a^{[l]}$ 。假设 $w^{[l+2]}$ 以及 $b^{[l+2]}$ 均为0，则 $a^{[l+2]}$ = $a^{[l]}$ ，这意味着残差模块容易学习恒等函数，即增加残差块之后并不影响模型的效果。

在残差块的relu函数中默认 $a^{[l]}$ 以及 $z^{[l+2]}$ 维度相同，所以可以看到残差块通常添加在 same 卷积层中。
若 $a^{[l]}$ 以及 $a^{[l+2]}$ 的输出层不同，就可以在g函数内添加一个参数权重 $a^{[l+2]} = g(W_sa^{[l]})$ ，其中 $W_s$ 是一个256乘128的向量， $W_s$ 可以是一个已经学习好的参数矩阵，也可以是待学习的参数矩阵。

ResNet 应用
推荐论文：Deep residual networks for image recognition， 2015

1 by 1 conv
本质是一个全连接网络，有时也被称为网中网。通常可以用1 by 1 conv 去缩减channel 通道的大小，也可以用来增加模型的非线性性，是网络学习到更加复杂的函数形式。

Inception

inception 是指不用去挑选卷积核大小或 pool 这些层，而是可以做所有能做的并把结果连接起来（将多种选择结果堆叠在一起）。
在这里插入图片描述
以 5乘5的卷积核为例，计算成本为：需要做120M（1.2亿）次计算
利用1by1构造成一个瓶颈层并最终实现乘法运算次数变为原来的1/10

利用1by1 实现上述提到的 Inception module ，减少计算量
Inception network 就是由多个Inception module 完成的。