batch_normalization和layer normalization的区别

直观的理解,batch vs layer normalization。
batch是“竖”着来的,各个维度做归一化,所以与batch size有关系。
layer是“横”着来的,对一个样本,不同的神经元neuron间做归一化。

给一个批次的数据[b,n,w,h]   

b是batch_size,n是特征图数目,w、h是宽和高。

batch_normalization是针对所有的样本,对某一个特征图计算均值和方差,然后然后对这个特征图神经元做归一化。

layer_normalization是对某一个样本,计算该样本所有特征图的均值和方差,然后对这个样本做归一化。

BN适用于不同mini batch数据分布差异不大的情况,而且BN需要开辟变量存每个节点的均值和方差,空间消耗略大;而且 BN适用于有mini_batch的场景。

LN只需要一个样本就可以做normalization,可以避免 BN 中受 mini-batch 数据分布影响的问题,也不需要开辟空间存每个节点的均值和方差。

猜你喜欢

转载自blog.csdn.net/zlrai5895/article/details/85458203