13权值初始化

一、梯度消失与爆炸

在这里插入图片描述
从上图可知,每一网络层输出不能太大或太小,否则会导致梯度爆炸或者梯度消失

在这里插入图片描述
对权重W进行处理,使其方差为 1 / n 1/n ,则隐藏输出的方差也为1,这样使得经过累乘,依然保持到一个很小的数

二、Xavier方法与Kaiming方法

2.1 Xavier方法

方差一致性: 保持数据尺度维持在恰当范围,通常方差为1
激活函数: 饱和函数, 如Sigmoid, Tanh
在这里插入图片描述

2.2 Kaiming方法

方差一致性:保持数据尺度维持在恰当范围,通常方差为1
激活函数: ReLU及其变种
在这里插入图片描述

三、常用初始化方法

在这里插入图片描述

发布了105 篇原创文章 · 获赞 9 · 访问量 7811

猜你喜欢

转载自blog.csdn.net/qq_36825778/article/details/104109030