1.经典网络

LetNet5：

n多年前就有的一个CNN的经典结构，主要是用于手写字体的识别

AlexNet：

首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。同时AlexNet也使用了GPU进行运算加速。

AlexNet将LeNet的思想发扬光大，把CNN的基本原理应用到了很深很宽的网络中。AlexNet主要使用到的新技术点如下：

（1）成功使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题。虽然ReLU激活函数在很久之前就被提出了，但是直到AlexNet的出现才将其发扬光大。

（2）训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。

（3）在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小，这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。

（4）提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。

（5）使用CUDA加速深度卷积网络的训练，利用GPU强大的并行计算能力，处理神经网络训练时大量的矩阵运算。

（6）数据增强，随机地从256*256的原始图像中截取224*224大小的区域（以及水平翻转的镜像），相当于增加了2*(256-224)^2=2048倍的数据量。

VGG-16：

2.残差网络（ResNet）

将某一层的输出值直接通过跳远连接传递到更深的层次。

残差块：a[l]

a[l+2] = g(z[l+2] + a[l])

残差的插入时机是在线性激活之后，Relu激活之前

3. 1x1卷积

保持宽高不变，压缩通道数

4.Inception Network

Inception V1

三个不同尺寸的过滤器（1x1,3x3,5x5），然后执行MaxPool，之后将输出连接，传递到下一层

降维的Inception V1

在1X1,3X3卷积之前、MaxPool之后进行1X1卷积，以降低通道数，减小开销

GoogLetNet

采用了降维的Inception V1构建神经网络

橙色框为基础卷积操作

紫色框为辅助分类器

Inception V2 A

将5X5卷积替换为2个3X3卷积，提高了性能

Inception V3

Inception Net v3 包含了针对 Inception v2 所述的所有升级，并且增加使用了以下内容：

RMSProp 优化器。

分解为 7x7 卷积。

辅助分类 BatchNorm。

标签平滑（添加到损失公式中的正则化组件类型，防止网络过于准确，防止过度拟合。）

Inception V4

Inception v4 中 stem 被修改了

5.迁移学习

训练好一个网络（我们称它为base network）→把它的前n层复制到target network的前n层→target network剩下的其他层随机初始化→开始训练target task。

其中，在做backpropogate（反向传播）的时候，有两种方法可以选择：

（1）把迁移过来的这前n层frozen（冻结）起来，即在训练target task的时候，不改变这n层的值；

（2）不冻结这前n层，而是会不断调整它们的值，称为fine-tune（微调）。这个主要取决于target数据集的大小和前n层的参数个数，如果target数据集很小，而参数个数很多，为了防止overfitting（过拟合），通常采用frozen方法；反之，采用fine-tune。

6.数据扩充

旋转 /反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容的朝向;
翻转变换(flip): 沿着水平或者垂直方向翻转图像;
缩放变换(zoom): 按照一定的比例放大或者缩小图像;
平移变换(shift): 在图像平面上对图像以一定方式进行平移;
可以采用随机或人为定义的方式指定平移范围和平移步长, 沿水平或竖直方向进行平移. 改变图像内容的位置;
尺度变换(scale): 对图像按照指定的尺度因子, 进行放大或缩小; 或者参照SIFT特征提取思想, 利用指定的尺度因子对图像滤波构造尺度空间. 改变图像内容的大小或模糊程度;
对比度变换(contrast): 在图像的HSV颜色空间，改变饱和度S和V亮度分量，保持色调H不变. 对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间), 增加光照变化;
噪声扰动(noise): 对图像的每个像素RGB进行随机扰动, 常用的噪声模式是椒盐噪声和高斯噪声;
颜色变换(color): 在训练集像素值的RGB颜色空间进行PCA, 得到RGB空间的3个主方向向量,3个特征值, p1, p2, p3, λ1, λ2, λ3. 对每幅图像的每个像素Ixy=[IRxy,IGxy,IBxy]T进行加上如下的变化:

吴恩达深度学习卷积神经网络深度卷积网络：实例探究

1.经典网络

LetNet5：

AlexNet：

VGG-16：

2.残差网络（ResNet）

3. 1x1卷积

4.Inception Network

Inception V1

降维的Inception V1

GoogLetNet

Inception V2 A

Inception V3

Inception V4

5.迁移学习

6.数据扩充

猜你喜欢

吴恩达 深度学习 卷积神经网络 深度卷积网络：实例探究

1.经典网络

LetNet5：

AlexNet：

VGG-16：

2.残差网络（ResNet）

3. 1x1卷积

4.Inception Network

Inception V1

降维的Inception V1

GoogLetNet

Inception V2 A

Inception V3

Inception V4

5.迁移学习

6.数据扩充

猜你喜欢

吴恩达深度学习卷积神经网络深度卷积网络：实例探究