数值稳定性 梯度爆炸 梯度消失 + 模型初始化和激活函数 动手学深度学习v2 pytorch

1. 数值稳定性 梯度爆炸 梯度消失

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 让训练更加稳定

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

f(x) = x

在这里插入图片描述
在这里插入图片描述

3. QA

  1. nan 一般是除以0导致的;inf表示无穷大,或者无穷小
  2. sigmoid会容易导致梯度消失,因为sigmoid的值在范围(0,1)
  3. 正态分布推导比较容易
  4. 4 * sigmoid(x) - 2 可以提高稳定性,因为在0附近的时候,使得f(x)=x

参考

https://www.bilibili.com/video/BV1u64y1i75a?p=1

猜你喜欢

转载自blog.csdn.net/zgpeace/article/details/123932629