吴恩达 深度学习 卷积神经网络 深度卷积网络:实例探究

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_24502469/article/details/81489703

1.经典网络

LetNet5:

n多年前就有的一个CNN的经典结构,主要是用于手写字体的识别

AlexNet:

首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。同时AlexNet也使用了GPU进行运算加速。

AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中。AlexNet主要使用到的新技术点如下:

(1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题。虽然ReLU激活函数在很久之前就被提出了,但是直到AlexNet的出现才将其发扬光大。

(2)训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合。Dropout虽有单独的论文论述,但是AlexNet将其实用化,通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。

(3)在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖,提升了特征的丰富性。

(4)提出了LRN层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。

(5)使用CUDA加速深度卷积网络的训练,利用GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算。 

(6)数据增强,随机地从256*256的原始图像中截取224*224大小的区域(以及水平翻转的镜像),相当于增加了2*(256-224)^2=2048倍的数据量。

VGG-16:

2.残差网络(ResNet)

将某一层的输出值直接通过跳远连接传递到更深的层次。

残差块:a[l]

a[l+2] = g(z[l+2] + a[l])     

残差的插入时机是在线性激活之后,Relu激活之前

3. 1x1卷积

保持宽高不变,压缩通道数

4.Inception Network

Inception V1

三个不同尺寸的过滤器(1x1,3x3,5x5),然后执行MaxPool,之后将输出连接,传递到下一层

 

降维的Inception V1

在1X1,3X3卷积之前、MaxPool之后进行1X1卷积,以降低通道数,减小开销

 

GoogLetNet

采用了降维的Inception V1构建神经网络

橙色框为基础卷积操作

紫色框为辅助分类器

Inception V2 A

将5X5卷积替换为2个3X3卷积,提高了性能

Inception V3

Inception Net v3 包含了针对 Inception v2 所述的所有升级,并且增加使用了以下内容:

RMSProp 优化器。

分解为 7x7 卷积。

辅助分类 BatchNorm。

标签平滑(添加到损失公式中的正则化组件类型,防止网络过于准确,防止过度拟合。)

Inception V4

Inception v4 中 stem 被修改了

5.迁移学习

训练好一个网络(我们称它为base network)→把它的前n层复制到target network的前n层→target network剩下的其他层随机初始化→开始训练target task。

其中,在做backpropogate(反向传播)的时候,有两种方法可以选择:

(1)把迁移过来的这前n层frozen(冻结)起来,即在训练target task的时候,不改变这n层的值;

(2)不冻结这前n层,而是会不断调整它们的值,称为fine-tune(微调)。这个主要取决于target数据集的大小和前n层的参数个数,如果target数据集很小,而参数个数很多,为了防止overfitting(过拟合),通常采用frozen方法;反之,采用fine-tune。

6.数据扩充

旋转 /反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容的朝向;
翻转变换(flip): 沿着水平或者垂直方向翻转图像;
缩放变换(zoom): 按照一定的比例放大或者缩小图像;
平移变换(shift): 在图像平面上对图像以一定方式进行平移;
可以采用随机或人为定义的方式指定平移范围和平移步长, 沿水平或竖直方向进行平移. 改变图像内容的位置;
尺度变换(scale): 对图像按照指定的尺度因子, 进行放大或缩小; 或者参照SIFT特征提取思想, 利用指定的尺度因子对图像滤波构造尺度空间. 改变图像内容的大小或模糊程度;
对比度变换(contrast): 在图像的HSV颜色空间,改变饱和度S和V亮度分量,保持色调H不变. 对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间), 增加光照变化;
噪声扰动(noise): 对图像的每个像素RGB进行随机扰动, 常用的噪声模式是椒盐噪声和高斯噪声;
颜色变换(color): 在训练集像素值的RGB颜色空间进行PCA, 得到RGB空间的3个主方向向量,3个特征值, p1, p2, p3, λ1, λ2, λ3. 对每幅图像的每个像素Ixy=[IRxy,IGxy,IBxy]T进行加上如下的变化:

猜你喜欢

转载自blog.csdn.net/qq_24502469/article/details/81489703