《机器学习技法》第12课笔记 神经网络

课程来源:林轩田《机器学习技法》
课程地址: https://www.bilibili.com/video/av12469267/?p=1


1. 什么时候tanh(xw)最大?当x和w平行时最大。
所以实际上可以把每个神经元看成是对输入变量的模式进行学习。

2. 链式求导
s是神经元。


3. 训练神经元时,当w很大,这时候tanH(扁S型)就会落在很平的区域,这时候下降就很慢。所以建议初始w的参数选择随机并且比较小的值。

4. 如果要惩罚神经元数量:
1)加入l2,那么实际上是权重的放缩,神经元还在
2)加入l1,|w|在某些点不可导,会对反向求导造成影响
3)考虑l2*一个scale,让每次放缩都有一定的值,从而使小的w有机会降到0


5. 也可以使用早停

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/80991868