李宏毅机器学习笔记-9：Tips For Training DNN - 代码天地

李宏毅机器学习笔记-9：Tips For Training DNN

其他 2020-02-22 11:04:00 阅读次数: 0

我们训练一个神经网络首先就要在Training Data上做测试，如果在Training Data上的效果很好，再拿去Testing Data测试。这是为啥？等下再解释

下面是训练一个神经网络的大致过程
在这里插入图片描述
有的时候Test Data测试结果不好并不是过拟合的结果

在这里插入图片描述
这是因为你的神经网络在Train set的结果本来就不好，上图56层的神经网络在训练的结果就没20层的好，所以在Test set的结果自然就比20层差。

如果在Training Data神经网络表现就不好，该怎么办？
一个是换新的Activation function，一个是更新我们的Lr

Activation function

往往会出现一些问题，所以需要更换我们的Activation function，比如梯度消失问题（vanishing gradient），梯度消失的问题就是当我们神经网络很深的时候出现的问题

在这里插入图片描述
后几层梯度很大，所以前几层参数更新几次后，后面的参数就已经达到了收敛（可能是局部最优，因为前几层的参数几乎和初始化的参数一致），所以这不是初始化参数的问题

那要怎样做呢？
在这里插入图片描述
当我们加上Activation function时就可以减小深层的梯度，上图是sigmoid

把sigmoid换成ReLU可以很好解决梯度消失的问题

在这里插入图片描述
通过ReLU后，就变成线性的，梯度就变小了，原样输出。但只有部分层是线性，全是线性也没用

在这里插入图片描述

ReLU有很多变形，可以改变小于0的部分，改成线性和非线性都可以在这里插入图片描述
Maxout NN——让神经网络自己去学习Activation function

下图左边如果学习的参数是这样就可以得到ReLU，当然也可以得到其他激活函数（如右边），根据你的参数的不同会有不同的函数
在这里插入图片描述

Lr

对于Lr，adagrad用了一次微分估计二次微分的方法（需要在二次微分相对固定，但通常二次微分不是那么固定）
在这里插入图片描述
可能在同一个方向需要不同的Lr。可以运用RMSProp

其中

在训练的时候可能会出现这样的情况，导致还没到达最优就已经停止了

在这里插入图片描述
于是我们可以加入动量，红色代表梯度，绿色代表动量，蓝色代表实际的方向，可以发现蓝色可以有效地越过上图梯度可能为0但却不是左右的地方，只要考虑前一次，就可以吧前面所有的Movement考虑进来

如何让神经网络在Test set上有好的表现，减少overfitting的情况？
方法有3：Early stopping,Regularzation,Dropout

Early stopping

随着训练次数的增加，我们希望停在测试数据误差增大的那个地方，但是我们不知道在哪里，所以，要边训练边拿Trian Data的一部分数据（Validation set）来做测试

在这里插入图片描述

Regularization

正则化分为L1,L2

Dropout

Dropout：在每一次训练前都丢掉一些神经元（假设每个神经元被丢掉的概率都为p%），这样神经网络就会变得更瘦，但在测试的时候不睡丢弃这些神经元，在少数的神经元都可以做好的情况下，增加神经元就可以做的更好，比如运动员在练习的时候加上负担，正常比赛就没有这些负担，或许可以发挥比训练时候更好的水平。
在这里插入图片描述
但在测试的时候，权重需要乘上（1-p%），因为之前有丢弃神经元，导致z与z’不等

为什么说Dropout行的通，先看看Ensemble
在一个训练集上训练多个神经网络，再用测试数据在每个神经网络测试后取平均值
在这里插入图片描述

当作用的Activation function是线性的时候就会出现下面这种情况，平均值和y大致相等，所以行的通

over

发布了16 篇原创文章 · 获赞 0 · 访问量 953

私信关注

猜你喜欢

转载自blog.csdn.net/qq_44157281/article/details/98041392

李宏毅机器学习笔记-9：Tips For Training DNN

【笔记】机器学习 - 李宏毅 - 10 - Tips for Training DNN

李宏毅机器学习课程笔记3：Backpropagation、"Hello world" of Deep Learning、Tips for Training DNN

李宏毅ML+DL学习记录：tips for training DNN

DNN训练技巧（Tips for Training DNN）

李宏毅深度学习_Tips for Training Deep Neural Network

李宏毅机器学习作业11——Transfer Learning，Domain Adversarial Training

Tips/Tricks in DNN

Tips for traing DNN

李宏毅机器学习笔记(9)

DNN论文阅读笔记

DNN

机器学习10：Tips of DNN——激活函数选择

Voice conversion with SI-DNN and KL divergence based mapping without parallel training data

Kaldi-dnn 学习01

深度学习——DNN反向传播

9、【李宏毅机器学习（2017）】Tips for Deep Learning（深度学习优化）

[李宏毅-机器学习]Tips for deep learning

李宏毅机器学习-学习笔记

【ML】李宏毅机器学习笔记

李宏毅机器学习笔记

李宏毅机器学习笔记（4）

李宏毅机器学习笔记（3）

李宏毅机器学习笔记（2）

李宏毅机器学习笔记（1）

李宏毅机器学习笔记(5)

李宏毅机器学习笔记(8)

李宏毅机器学习笔记(7)

李宏毅机器学习笔记(19)

李宏毅机器学习笔记(18)

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)