LLM：大模型的正则化

主流大模型使用的Normalization主要有三类，分别是Layer Norm，RMS Norm，以及Deep Norm。

小模型的正则化参考：

l1l2正则和dropout正则化[https://youzipi.blog.csdn.net/article/details/75307522]

Post-Norm和Pre-Norm

根据Normalization在结构中的位置，也可分为Post-Norm和Pre-Norm。

一般认为，Post-Norm在残差之后做归一化，对参数正则化的效果更强，进而模型的收敛性也会更好；

而Pre-Norm有一部分参数直接加在了后面，没有对这部分参数进行正则化，可以在反向时防止梯度爆炸或者梯度消失，大模型的训练难度大，因而使用Pre-Norm较多。

目前比较明确的结论是：同一设置之下，Pre Norm结构往往更容易训练，但最终效果通常不如Post Norm。Pre Norm更容易训练好理解，因为它的恒等路径更突出，但为什么它效果反而没那么好呢？[为什么Pre Norm的效果不如Post Norm？ - 科学空间|Scientific Spaces]

[【重新了解Transformer模型系列_1】PostNorm/PreNorm的差别 - 知乎]

RMS Norm

2019年的论文《Root Mean Square Layer Normalization》比较了去掉center后的Layer Normalization，文章称之为RMS Norm，但这篇论文总的结果显示：RMS Norm比Layer Normalization更快，效果也基本一致。RMS Norm还被Google用在了T5中，并且在另外的一篇文章《Do Transformer Modifications Transfer Across Implementations and Applications?》中做了比较充分的对比实验，显示出RMS Norm的优越性。这样看来，未来RMS Norm很可能将会取代Layer Normalization而成为Transformer的标配。

与layerNorm相比，RMS Norm的主要区别在于去掉了减去均值的部分。计算公式为：