【大模型AIGC系列课程 3-1】Meta开源大模型:羊驼系列

1. LLaMA

https://arxiv.org/abs/2302.13971
LLaMA(由Meta推出)和GPT是两种不同的语言模型。以下是LLaMA相对于GPT的一些优点:
● 架构修改:LLaMA在Transformer架构的基础上进行了一些修改。例如,LLaMA使用了预归一化(pre-normalization)而不是后归一化(post-normalization)的方法,这可以提高训练的稳定性。此外,LLaMA还引入了SwiGLU激活函数等架构修改。
预归一化(pre-normalization)和归一化(post-normalization)是Transformer架构中用于处理输入数据的两种不同方法。
在传统的Transformer架构中,归一化通常是在每个Transformer层的自注意力机制和前馈神经网络之后进行的。具体而言,对于每个子层,输入数据会先通过一个残差连接(residual connection)与原始输入相加,然后再进行归一化操作。归一化操作通常使用层归一化(layer normalization)或批归一化(batch normalization)。
相比之下,预归一化是在每个子层的输入之前进行归一化操作。具体而言,输入数据会先进行归一化,然后再通过子层的操作。这种方法可以提高训练的稳定性,因为归一化操作可以减少输入数据的变化范围,使得模型更容易学习。
SwiGLU激活函数是一种用于替代传统ReLU激活函数的改进型激活函数。SwiGLU激活函数在Transformer架构中被用于替代前馈神经网络中的非线性激活函数。SwiGLU激活函数的主要特点是它具有门控机制,

猜你喜欢

转载自blog.csdn.net/u011239443/article/details/132515856