Llama 2:开源语言模型的未来

介绍

随着 Llama 2 的推出,Meta 在生成式 AI 竞赛中取得了巨大的飞跃,Llama 2 是一个新的开源大语言模型 (LLM) 系列,有望实现这些技术的民主化。

新一代模型的训练数据比其前身 Llama 1 多 40%。它总共接受了 2 万亿个标记的训练,这是模型可以处理的文本的基本单位(字符、单词、标点符号等)。

与之前的版本相比,Llama 的新版本的上下文长度也增加了一倍,现在使用 4096 个标记的上下文。要理解这意味着什么,我们需要了解法学硕士如何生成其输出。当给出提示时,语言模型使用该文本来预测该文本序列中的下一个标记应该是什么,这对应于我们问题的响应的开头。然后,LLM 使用提示文本和其响应的第一个标记来预测其响应的第二个标记应该是什么,依此类推。4096 个令牌的上下文意味着 Llama 2 在生成其响应的每个令牌时可以考虑我们对话的最后 4096 个令牌。上下文规模越大,其响应的连贯性和质量就越高。

技术规格

除了上述改进之外,还应该指出的是,Llama 2 还有不同版本,大小也各不相同。最紧凑的有 70 亿个参数,中等的有 130 亿个参数,最大的有 700 亿个参数。参数的数量衡量模型能够存储为内部表示的语言信息和模式的数量,并衡量它可以生成的响应的质量。

这些型号中最小的型号的大小约为 13 GB。这意味着它可以在具有中档 GPU 的系统上轻松地本地使用。这意味着,与 ChatGPT 和 Bard 等规模更大的其他语言模型不同,个人用户和研究人员可以在这个神经网络上进行自己的实验和修改,从而导致比封闭模型允许的创新率更高。

此外,三种不同大小的模型中的每一种都有两种不同的版本:作为预训练的语言模型

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/131847136