LLaMA Open and Efficient Foundation Language Models

来源Meta AI

论文：LLaMA: Open and Efficient Foundation Language Models

模型：目前可以在huggingface上直接下载，https://huggingface.co/decapoda-research 包括：

LLaMA-7B
LLaMA-13B
LLaMA-33B
LLaMA-65B

一、摘要

我们介绍了LLaMA，这是一组从7B到65B参数范围内的基础语言模型。我们在数万亿的代币上训练我们的模型，并表明可以专门使用可公开使用的数据集来训练最先进的模型，而无需求助于专有和不可访问的数据集。特别是，LLaMA-13B在大多数基准测试中都优于GPT-3（175B），并且LLaMA-65B与最好的型号Chinchilla-70B和PaLM-540B具有竞争力。我们向研究界发布所有模型。

二、介绍

作者认为大模型效果好的主要原因，不是在模型大上，而是在高质量数据的数量上，并需要根据数据量训练合适大小的模型，可以达到很好的性能。

与Chinchilla、PaLM或GPT-3不同，作者团队只使用公开可用的数据，使我们的工作与开源相兼容。

论文，我们概述了我们对transformer架构所做的修改，以及训练方法。然后，我们报告我们的模型的性能，并在一组标准基准上与其他LLM进行比较。最后，我们使用负责任的人工智能社区的一些最新基准，揭示了我们模型中编码的一些偏见和毒性。在这里插入图片描述

三、数据集

由于只使用开源数据集，对一些数据集只能使用部分内容，数据集构建如下表。

在这里插入图片描述

四、优化

整体仍然使用类似GPT，PaLM的decoder-only的结构，预训练策略仍然是LM任务。以下为一些优化和参数设置。

基于GPT-3中RMSNorm 正则化。
基于PaLM 的SwiGLU 激活函数。
基于苏神Roformer 的RoPE 位置编码。
AdamW 优化器（β1 = 0.9, β2 = 0.95）余弦学习率schedule
weight-decay=0.1 梯度裁剪=1.0 ，warmup=2000 steps
Batch_size =4M
使用xformers库提高multi-head self attention的训练

五、结果

分别在zero-shot ，few-shot 任务上进行open-ended generation 和 rank proposed answers 进行对比实验，与其他LLM模型进行对比。

分别在自然问题，常识推理，QA，阅读理解，数学推理，代码生成，大规模多任务语言理解。

在这里插入图片描述

六、指令微调

使用与论文 Scaling Instruction-Finetuned Language Models 相同的方法进行微调，可以让模型具有更好的效果，这里称为LLaMA-I.

在这里插入图片描述

七、偏见、毒性和错误信息

大型语言模型已被证明会重新产生和放大训练数据中存在的偏见（Sheng等人，2019；Kurita等人，2019），并产生有毒或攻击性的内容（Gehman等人，2020）。由于我们的训练数据集包含很大一部分来自Web的数据，我们认为确定我们的模型生成此类内容的可能性至关重要。为了了解LLaMA-65B的潜在危害，我们在不同的基准上进行了评估，这些基准衡量了有毒成分的产生和刻板印象的检测。虽然我们选择了语言模型社区使用的一些标准基准来表明这些模型的一些问题，但这些评估不足以充分理解与这些模型相关的风险。

八、总结

在本文中，提出了一系列公开发布的语言模型，这些模型与最先进的基础模型具有竞争力。最值得注意的是，LLaMA-13B的体积比GPT-3小10倍以上，同时LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞争力。与之前的研究不同，我们表明，通过专门在公开可用的数据上进行训练，而无需求助于专有数据集，可以实现最先进的性能。我们希望向研究界发布这些模型将加速大型语言模型的开发，并有助于提高其健壮性，缓解毒性和偏见等已知问题。此外，我们像Chung等人一样观察到。（2022）根据指令微调这些模型会产生有希望的结果，我们计划在未来的工作中对此进行进一步研究。最后，我们计划在未来发布在更大的预训练语料库上训练的更大模型，因为随着我们的扩展，性能不断提高。