开源大模型论文盘点，内附PDF下载链接

大模型进入“安卓时代”，开源模型和闭源模型不断的出现，成为大模型领域两股并行的力量。

开源大模型更是为AI领域带来了新的活力，基于开源大模型开发的行业生态应用甚至是新的模型不断出现。同时也为研究者和开发者提供了更广阔的创新空间，可以在有限资源和没有专有系统情况下试验这些开源模型。

在国外，在ChatGPT发布后，Meta 发布了 Llama，在今年又发布了开源可商用的Llama2，斯坦福大学微调 Llama 后发布的 Alpaca，1800亿参数的Falcon最近也宣布开源。

在国内，清华大学联合智谱AI发布了开源的ChatGLM-6B，上海人工智能实验室的书生·浦语，百川智能的baichuan-7B等。

世界各地的开源模型在快速进步。

在本文中，我们总结了目前开源大模型的部份论文，结合AMiner AI功能，形成论文综述，让大家更加快速了解论文详情。

让我们一同深入了解这些令人振奋的进展。

1.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

论文说明了在自然语言处理（NLP）领域中，传递学习已经成为一种强大的技术，其中模型首先在数据丰富的任务上进行预训练，然后在下游任务上进行微调。传递学习的有效性引发了各种方法、方法论和实践。本文通过引入一个统一的框架，将所有基于文本的语言问题转化为文本到文本的格式，探索了NLP传递学习技术的潜力。通过在数十个语言理解任务上比较预训练目标、架构、无标签数据集、传递方法和其他因素，结合大规模的数据集和新的“巨大的干净爬取语料库”，该研究取得了许多基准测试中的最新成果，涵盖了摘要、问答、文本分类等任务。为了促进NLP传递学习的未来研究，研究人员公开发布了他们的数据集、预训练模型和代码。

论文链接：https://www.aminer.cn/pub/5db1765a3a55ac101c887e97/?f=cs

2.mT5: A massively multilingual pre-trained text-to-text transformer

这篇论文介绍了一种名为 mT5 的大规模多语言预训练文本到文本 Transformer 模型。近期的“文本到文本转移 Transformer”(T5) 使用统一文本到文本格式和规模，在多种英语自然语言处理任务上取得了最先进的结果。在本文中，我们介绍了 mT5,一个基于 Common Crawl 数据的多语言变体 T5,它覆盖了 101 种语言。我们描述了 mT5 的设计和修改训练，并展示了它在多个多语言基准上最先进的表现。所有用于这项工作的代码和模型检查点都是公开可用的。

论文链接：https://www.aminer.cn/pub/5f92ba5191e011edb3573ba5/?f=cs

3.PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation

这篇论文介绍了一种名为 PanGu-α的大规模自回归预训练中文语言模型，该模型具有 200 亿个参数。在开发 PanGu-α时，使用了 MindSpore 框架，并在一个由 2048 个 Asciend 910 AI 处理器组成的集群上进行训练。训练采用了基于 MindSpore Auto-parallel 的并行训练策略，包括数据并行、操作级模型并行、管道模型并行、优化器模型并行和重采样等技术。为了提高 PanGu-α的泛化能力，我们使用了来自多个领域的 1.1TB 高质量中文数据进行预训练。在测试中，我们检验了 PanGu-α在文本摘要、问答、对话生成等场景下的生成能力。此外，我们还研究了模型规模在不同中文自然语言处理任务中的影响，并证明了 PanGu-α在少量或零样本情况下具有出色的表现能力。

论文链接：https://www.aminer.cn/pub/6087f2ff91e011e25a316d31/?f=cs

4.CPM-2: Large-scale cost-effective pre-trained language models

这篇论文介绍了一种名为 CPM-2 的大型高效预训练语言模型，该模型通过使用一系列高效的技术来解决预训练、微调和推理过程中的效率和问题。这些方法包括知识继承来加速预训练过程，使用大型预训练语言模型进行快速微调，以及一个新的推理工具包 infmoe,用于在资源受限的环境中使用大型预训练语言模型。基于这些技术，该论文介绍了一个具有 110 亿参数的 encoder-decoder 双语模型 CPM-2,以及一个具有 1980 亿参数的 MoE 版本。在实验中，CPM-2 在下游任务中与 mT5 进行了比较，结果表明 CPM-2 具有良好的通用语言智能。此外，我们还验证了 infmoe 在单个 GPU 上对大型模型进行推理的高效性。该论文的源代码和模型参数可在 https://github.com/TsinghuaAI/CPM 上获取。

论文链接：https://www.aminer.cn/pub/60d30ac49e795e035c9e5884/?f=cs

5.Multitask Prompted Training Enables Zero-Shot Task Generalization

文章说明了一个问题：如何通过使用多任务学习来实现零-shot任务泛化。文章解释了最近在大型语言模型中实现了合理的零-shot泛化的原因可能是由于语言模型训练中的隐式多任务学习。作者提出了一个系统，可以将常见的自然语言任务转化成易于理解的提示形式，以测试显式多任务学习是否可以直接诱导出零-shot泛化。通过在这个多任务混合数据集上对预训练的编码器-解码器模型进行微调，作者发现该模型在几个标准数据集上达到了强大的零-shot性能，并且通常优于自身大小16倍的模型。另外，作者的方法在BIG-Bench基准测试中的一部分任务上也表现出色，优于自身大小6倍的模型。

论文链接：https://www.aminer.cn/pub/616ce5a55244ab9dcbacff30/?f=cs

6.GPT-NeoX-20B: An Open-Source Autoregressive Language Model

这篇论文介绍了一个名为 GPT-NeoX-20B 的开源自回归语言模型。该模型拥有 200 亿个参数，是在堆叠数据集 Pile 上训练的。该模型的权重将通过开源许可免费和公开发布。据我们所知，这是当时公开可用的最大的密集自回归模型。在这篇论文中，我们描述了 GPT-NeoX-20B 的架构和训练，并评估了它在语言理解、数学和知识任务方面的表现。

论文链接：https://www.aminer.cn/pub/6258e26b5aee126c0fbc7a9a/?f=cs

7.CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis

这篇论文研究了计算机程序生成的新技术，旨在通过自然语言描述或输入输出示例来生成计算机程序。虽然大型语言模型的流行促进了程序生成技术的发展，但训练资源和数据有限，使得公开访问这些模型受到限制。为了解决这个问题，该论文训练并发布了一个名为 CODEGEN 的大型语言模型，其拥有 16.1B 个参数，使用自然语言和编程语言数据进行训练，并将训练库开源，名为 JAXFORMER。该模型在零样本 Python 代码生成 HumanEval 测试中表现出色，展示了其实用性。此外，该论文还研究了多步骤程序生成范式，将单个程序分解为多个子问题。为了验证该范式的有效性，该论文构建了一个名为 MTPB 的开源基准，包含 115 个多样化的问题集，并将其分解为多回合提示。对 MTPB 的分析表明，在同一意图以多回合方式提供给 CODEGEN 时，它显著地提高了程序生成的效果。该论文还将训练库 JAXFORMER 和模型检查点开源，并提供链接：https://github.com/salesforce/CodeGen。

论文链接：https://www.aminer.cn/pub/6241273e5aee126c0f292b68/?f=cs

8.Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks

这篇论文探讨了在提供任务说明的情况下，自然语言处理模型是否能够泛化到各种未观测的任务。为了解决这个问题，作者首先介绍了 Super-NaturalInstructions 基准集，该基准集包含 1,616 个多样化的自然语言处理任务及其专家编写的任务说明。该集合涵盖了 76 种不同的任务类型，包括但不限于分类、提取、填充、序列标记、文本重写和文本组合。这个大规模的任务集合可以严格的评估在任务说明下跨任务泛化的能力——训练模型遵循说明的一部分任务，并评估它们在未观测的任务上的表现。此外，作者还构建了一个称为 Tk-Instruct 的 Transformer 模型，该模型被训练以遵循各种上下文中的任务说明 (例如简单的任务定义或 k-shot 示例)。在基准集中，Tk-Instruct 不仅在我们研究的方面都超越了现有的指令跟随模型，如 InstructGPT,而且比它小一个数量级。我们还分析了泛化能力如何随观察任务的数量、每个任务使用的实例数量和模型大小而变化。我们希望我们的数据和模型可以促进未来针对更通用自然语言处理模型的进展。

论文链接：https://www.aminer.cn/pub/625e1a335aee126c0feca4ca/?f=cs

9.UL2: Unifying Language Learning Paradigms

这篇论文介绍了一种统一的语言学习范式，旨在跨越数据和设置差异，对所有数据和设置都有效。该方法通过将 architectural archetypes 与 pre-training objectives 分离开来，并提出了一种通用的和统一的语言自然度视角，展示了不同的 pre-training objectives 可以被视为彼此等价，以及在不同 objectives 之间插值是有效的。然后提出了 Mixture-of-Denoisers (MoD) 作为一种联合多种预训练范式的预训练目标，并引入了一种模式切换的概念，用于与特定预训练方案相关的下游微调。通过进行广泛的元实验比较多种预训练目标，发现该方法在多个多样化设置中推动了帕累托前沿，并在各个设置中战胜了 T5 和 GPT 类似模型。通过将模型扩展到 20 亿参数，实现了在 50 个广泛使用的 supervised finetuning based 自然语言处理任务上的顶尖性能。该模型还在上下文学习方面表现出色，在 zero-shot SuperGLUE 中超过了 175B GPT-3,并在 one-shot 摘要中三倍战胜了 T5-XXL。在 0-shot MMLU 中，UL2 20B 胜过了 T0 和 T5 模型。此外，UL2 20B 还与链式思维提示和推理很好地配合，使其成为研究推理的小至中等规模 20B 参数规模的有吸引力的选择。最后，将该模型应用于 FLAN 指令微调，实现了 MMLU 和 Big-Bench 分数与 FLAN-PaLM 62B 相当。我们还发布了用于 UL2 20B 和 Flan-UL2 20B 的 Flax-based T5X 检查点。

论文链接：https://www.aminer.cn/pub/627c6cf55aee126c0f831748/?f=cs

10.OPT: Open Pre-trained Transformer Language Models

本论文提出了Open Pre-trained Transformer Language Models (OPT)，它是一组只有decoder部分的预训练transformer模型，范围从125M到175B参数。这些模型可以进行零-shot和少量数据学习，并且具有与已有的语言模型相似的性能，例如GPT-3。相比之下，OPT在开发过程中的碳足迹仅有GPT-3的1/7。此外，作者还提供了进行实验所需的代码和所面临的基础设施挑战的日志记录。通过这项工作，研究人员可以更好地了解大语言模型的内部工作原理，从而为未来的研究提供更好的基础。

论文链接：https://www.aminer.cn/pub/62708f625aee126c0fa694a0/?f=cs

11.No Language Left Behind: Scaling Human-Centered Machine Translation

这篇论文讨论了在大规模消除语言障碍的目标下，机器翻译已经成为人工智能研究的一个关键问题。然而，这些努力主要集中在小部分语言上，而大多数主要是低资源语言则被忽视了。为了解决这一问题，研究者们通过与原生语言人士进行探索性访谈来了解低资源语言翻译支持的需求。然后，他们创建了旨在缩小低资源语言和高资源语言之间表现差距的数据和模型。具体来说，他们开发了基于 Sparsely Gated Mixture of Experts 的 Conditional Compute 模型，该模型是在针对低资源语言的独特数据挖掘技术上进行训练的。他们提出了多种架构和训练改进方法，以抵消在训练数千个任务时发生的过拟合。最重要的是，他们用人类翻译基准集 Flores-200 对超过 40,000 个不同翻译方向进行了评估，并将人类评估与涵盖所有 Flores-200 语言的新毒性基准相结合，以评估翻译安全性。他们的模型相对于之前的状态-of-the-art 提高了 44% 的 BLEU 分数，为实现通用翻译系统奠定了重要的基础。

论文链接：https://www.aminer.cn/pub/62cce6795aee126c0f2a85b2/?f=cs

12.BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

说明了大型语言模型（LLM）的开发和使用存在的问题。虽然LLM在基于少量演示或自然语言指令的情况下能够执行新任务，但大多数LLM都是由资源丰富的组织开发的，并且经常不向公众公开。为了推动这种强大技术的民主化进程，作者介绍了BLOOM，这是一个由数百名研究人员合作设计和构建的176B参数开放访问语言模型。BLOOM是一个仅解码器的Transformer语言模型，使用ROOTS语料库进行训练，该语料库包含46种自然语言和13种编程语言的数百个来源（总共59种）。作者发现，BLOOM在各种基准测试中取得了竞争性能，并在进行多任务提示微调后取得更好的结果。为了促进未来使用LLM进行研究和应用，作者公开发布了模型和代码。

论文链接：https://www.aminer.cn/pub/636c6bec90e50fcafd2d3ff2/?f=cs

13.GLM-130B: An Open Bilingual Pre-trained Model

本文介绍了一个开源的双语（英语和汉语）预训练语言模型GLM-130B，其拥有1300亿个参数。该模型的目标是至少与GPT-3相当，并解开如此大规模模型如何成功预训练的秘密。在开发过程中，作者面临了许多意想不到的技术和工程挑战，尤其是在损失高峰和收敛不足方面。本文介绍了GLM-130B的训练过程，包括其设计选择、高效稳定的训练策略和工程努力。结果GLM-130B在许多流行的英语基准测试中明显优于GPT-3 175B，而在OPT-175B和BLOOM-176B中未观察到性能优势。在相关基准测试中，GLM-130B始终显著优于最大的中文语言模型ERNIE TITAN 3.0 260B。最后，作者利用GLM-130B的独特缩放属性，实现了INT4量化，且几乎没有性能损失，使它成为100B规模模型中首款实现此功能的模型。该模型权重已公开，其代码、训练日志、相关工具包以及所学习的经验也在https://github.com/THUDM/GLM-130B中开源。

论文链接：https://www.aminer.cn/pub/633e476890e50fcafde59595/?f=cs

14.Scaling Instruction-Finetuned Language Models

这篇论文探索了指令微调语言模型的方法，特别是在扩展任务数量、模型大小和微调数据链方面进行了重点研究。研究表明，使用这些方法可以显著提高各种模型类型 (如 PALM、T5 和 U-PaLM) 的性能，以及零起点、少数经验和协作学习下的模型表现。例如，Flan-PaLM 540B 在 1.8K 个任务上微调后，平均超过 PALM 540B 9.4%。Flan-PaLM 540B 在一些基准榜上甚至达到了领先水平，例如在五 shot MMLU 上达到了 75.2%。我们还公开发布了 Flan-T5 的 Checkpoint，即使在与大型模型如 PaLM 62B 相比时，也实现了出色的少数经验表现。总之，指令微调是一种提高预训练语言模型性能和可用性的通用方法。

论文链接：https://www.aminer.cn/pub/63520de890e50fcafd60f4dd/?f=cs

15.Crosslingual Generalization through Multitask Finetuning

这篇论文探讨了跨语言泛化的方法，通过多任务 Finetuning 来提高大型语言模型在新任务上的泛化能力。先前的研究表明，多任务提示 Finetuning (MTF) 可以帮助大型语言模型在零样本情况下对新任务进行泛化，但目前为止，对 MTF 的探索主要集中在英语数据和模型上。本文将 MTF 应用于预训练的跨语言 BLOOM 和 mT5 模型家族，产生了名为 BLOOMZ 和 mT0 的 finetuned 变体。我们发现，将大型跨语言语言模型 Finetuning 于英语任务和英语提示，可以将其泛化到仅出现在预训练集中的非英语语言。Finetuning 于跨语言任务和英语提示更进一步提高了英语和非英语任务的表现力，取得了各种零样本表现的领先地位。我们还研究了使用机器翻译将英语提示翻译成对应语言的机器翻译提示进行跨语言 Finetuning。我们发现，训练于这些机器翻译提示可以提高相应语言中人类写作的提示的表现。令人惊奇的是，我们发现模型可以无意识地看到的语言任务上进行零样本泛化。我们猜测，模型正在学习具有任务和语言无关的高级能力。此外，我们介绍了 xP3,一个由 46 种语言的英语和机器翻译提示组成的合成监督数据集。我们的代码、数据集和模型在 https://github.com/bigscience-workshop/xmtf 上公共可用。

论文链接：https://www.aminer.cn/pub/636482d790e50fcafdccae4e/?f=cs

16.Galactica: A Large Language Model for Science

这篇论文介绍了一种名为 Galactica 的大型语言模型，它可以存储、结合和推理科学知识。该模型训练于大量的科学文本、参考文献、知识库等来源，在一系列科学任务中表现优于现有的模型。在技术知识测试方面，如 LaTeX 方程，Galactica 比最新的 GPT-3 表现更好，达到了 68.2% 的成功率，而 GPT-3 仅为 49.0%。Galactica 在推理方面也表现出色，在数学 MMLU 测试中比 Chinchilla 表现更好，达到了 41.3%,而在 MATH 测试中则比 PaLM 540B 表现更好，达到了 20.4%。此外，Galactica 还在下游任务中创造了新的巅峰，如 PubMedQA 和 MedMCQA 问答任务的 dev 版本，分别达到了 77.6% 和 52.9% 的准确率。尽管该模型没有训练于通用语料库，但它仍然优于 BLOOM 和 OPT-175B 等模型。我们相信这些结果展示了语言模型作为科学界面的潜力，因此我们公开了该模型，以造福科学社区。

论文链接：https://www.aminer.cn/pub/6375a67190e50fcafd3e1d4a/?f=cs

17.OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization

这篇论文研究了将大型预训练语言模型微调为一组任务，称为指令微调 (instruction-tuning),以改善其在面对未看到的任务的零和少量样本时的泛化能力。然而，在指令微调过程中，不同的决策对下游任务表现的影响知之甚少。这些决策包括指令微调基准的规模和质量、不同的任务采样策略、是否使用演示、用于推理和对话的特殊数据集训练以及最终微调的目标。为了解决这个问题，作者创造了一个名为 OPT-IML Bench 的大型指令微调基准，其中包含 2000 个自然语言处理任务，从 8 个现有基准中整合到任务类别中。我们还为该框架准备了一个评估框架，以测量三种不同类型的模型泛化能力：完全未知的任务、已知任务的未知任务以及已知任务的未知实例。通过这个框架，我们首先展示了指令微调决策在应用于 OPT-30B 模型时的影响，并利用这些洞察训练了 OPT-IML 30B 和 175B，它们是指令微调的 OPT 模型。OPT-IML 在四个不同的评估基准上展示了三种泛化能力，包括 PromptSource、FLAN、Super-NaturalInstructions 和 UnifiedSKG。它不仅在所有基准上远远优于 OPT，而且与现有模型在特定基准上微调后的性能相当。我们将 OPT-IML 发布到两个规模上，并与 OPT-IML Bench 评估框架一起发布。

论文链接：https://www.aminer.cn/pub/63a910a290e50fcafd2a84fd/?f=cs

19.Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

本文介绍了一个名为“Pythia”的系统,旨在深入分析大型语言模型(即LLM)在训练过程中是如何发展和演变的,以及这些模式在模型规模扩大时如何改变。该系统包括16个LLM,这些模型均在相同的公共数据上训练,规模从70M到12B参数不等。该系统还提供了154个检查点,以及下载和重构精确的训练过程的工具,以便进一步研究。本文提供了多个研究的案例,包括记忆、术语频率对少样本性能的影响、减少性别偏见等方面的新结果。作者通过展示这种高度可控的研究方法如何产生关于LLM和它们的训练动态的新见解,表明“Pythia”系统能够帮助深入了解LLM并促进相关研究。所有的训练模型、分析代码、训练代码以及训练数据都可以在https://github.com/EleutherAI/pythia上找到。

论文链接：https://www.aminer.cn/pub/642ce6f390e50fcafde74c79/?f=cs

20.LLaMA: Open and Efficient Foundation Language Models

本文介绍了LLaMA，一套拥有7B到65B参数的基础语言模型。作者们在数万亿令牌上进行了训练，并展示了使用公开可用数据集训练最先进的模型是可能的，而不必依赖于专有和不可访问的数据集。其中，LLaMA-13B在大多数基准测试中优于GPT-3（175B），而LLaMA-65B与最佳模型，Chinchilla-70B和PaLM-540B，具有竞争力。作者将所有模型共享给研究社区。

论文链接：https://www.aminer.cn/pub/63fd715e90e50fcafd14767c/?f=cs

21.CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X

这篇论文介绍了 CodeGeeX,一个具有 13 亿参数的跨语言代码生成模型。该模型在 23 种编程语言的基础上于 2022 年 6 月预训练了 850 亿个单词。我们的实验表明，CodeGeeX 在代码生成和翻译任务中都优于类似的跨语言代码模型，并在 HumanEval-X 基准上建立了用于评估多语言模型的 C++、Java、JavaScript 和 Go 手写解决方案的标准。我们还开发了基于 CodeGeeX 的 Visual Studio Code、JetBrains 和 Cloud Studio 扩展，每周为数十万活跃用户生成 4.7 亿个单词。我们的用户研究表明，CodeGeeX 可以帮助 83.4% 的用户提高编码效率。最后，CodeGeeX 是公共可用的，并于 2022 年 9 月在其 GitHub 上开源了代码、模型权重 (版本为 850 亿个单词)、API、扩展和 HumanEval-X 基准。

论文链接：https://www.aminer.cn/pub/64264f7b90e50fcafd68e145/?f=cs

22.MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

这篇论文探讨了如何使用更先进的大型语言模型 (LLM) 来增强视觉语言理解能力。他们介绍了 MiniGPT-4 模型，该模型将冻结的视觉编码器和冻结的 LLM Vicuna 通过一个投影层对齐。研究表明，MiniGPT-4 具有许多与 GPT-4 相似的功能，例如生成详细的图像描述和创建来自手写草稿的网站。此外，我们还观察到 MiniGPT-4 具有生成故事、诗歌和解决问题等新兴能力。在实验中，我们发现仅使用原始图像文本对进行预训练可能会导致缺乏连贯性的语言输出，包括重复和片段化的句子。为了解决这个问题，我们在第二个阶段使用高质量的、对齐的数据集进行精细调整，使用对话模板进行训练。这一步至关重要，增加了模型的生成可靠性和整体可用性。值得注意的是，我们的模型具有很高的计算效率，因为我们只使用了大约 5 百万个对齐的图像文本对来训练投影层。

论文链接：https://www.aminer.cn/pub/6442336c4c80727584270e42/?f=cs

23.Alpaca: A Strong, Replicable Instruction-Following Model

这篇论文介绍了一种名为 Alpaca 的强大且可复制的指令跟随模型。随着像 GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 这样的指令跟随模型变得越来越强大，许多用户现在经常与这些模型互动，甚至用它们来完成工作。然而，尽管这些模型广泛部署，但它们仍然存在许多缺陷：它们可能生成虚假信息、传播社会刻板印象并产生有毒语言。

论文链接：https://www.aminer.cn/pub/64eef34b12da7235fe62adac/?f=cs

24.Llama 2: Open Foundation and Fine-Tuned Chat Models

这篇论文介绍了 Llama 2，一个包括从 70 亿到 700 亿个参数的预训练和优化的大型语言模型 (LLM) 集合。其中的 Llama 2-Chat 是针对对话场景优化的 LLM，并在大多数测试的基准上表现优于开源聊天模型。根据我们对有用性和安全性的人类评估，Llama 2-Chat 可能是封闭源模型的合适替代品。论文详细描述了 Llama 2-Chat 的微调方法和安全改进方法，以便于社区在此基础上进行构建并促进 LLM 的负责任开发。

论文链接：https://www.aminer.cn/pub/64b758dd1a5852438b7976ff/?f=cs

开源大模型论文盘点，内附PDF下载链接

猜你喜欢