[李宏毅-机器学习]Tips for deep learning

Activation fucntion

sigmoid对深层网络效果不好,可能会导致梯度消失问题

sigmoid对输入比较大,得到的输出比较小

ReLU

Maxout

自动学习出来需要的activation function

梯度下降优化方式

AdaGrad

RMSProp

Adagrad改进版,对过去和现在的梯度(不带方向,平方去掉了方向)进行加权

动量Momentum

用于避开local minima

动量就是之前梯度的累计,相当于惯性(带方向)

Adam=RMSprop+Momentum

Early Stopping

正则化 Regularization

Dropout

使用dropout时,在training时效果会变差,但是主要用于test

发布了164 篇原创文章 · 获赞 36 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/py184473894/article/details/104294787