Activation fucntion
sigmoid对深层网络效果不好,可能会导致梯度消失问题
sigmoid对输入比较大,得到的输出比较小
ReLU
Maxout
自动学习出来需要的activation function
梯度下降优化方式
AdaGrad
RMSProp
Adagrad改进版,对过去和现在的梯度(不带方向,平方去掉了方向)进行加权
动量Momentum
用于避开local minima
动量就是之前梯度的累计,相当于惯性(带方向)
Adam=RMSprop+Momentum
Early Stopping
正则化 Regularization
Dropout
使用dropout时,在training时效果会变差,但是主要用于test