YUAN 2.0: A Large Language Model with Localized Filtering-based Attention

本文是LLM系列文章,针对《YUAN 2.0: A Large Language Model with Localized Filtering-based
Attention》的翻译。

YUAN 2.0:一个基于本地化过滤的注意力的大型语言模型

摘要

在这项工作中,我们开发并发布了Yuan2.0,这是一系列参数从21亿到1026亿的大型语言模型。引入了基于局部过滤的注意力(LFA),将自然语言局部依赖性的先验知识引入到注意力中。为了建立高质量的预训练和微调数据集,提出了一种数据过滤和生成系统。提出了一种非均匀流水线并行、数据并行和优化器并行的分布式训练方法,大大降低了节点内通信的带宽要求,在大规模分布式训练中取得了良好的性能。与现有模型相比,Yuan 2.0模型在代码生成、数学问题解决和聊天方面表现出了令人印象深刻的能力。最新版本的YUAN 2.0,包括模型权重和源代码,可以在Github上访问。

1 引言

2 相关工作

3 方法

4 结果与分析

5 结论

在这项工作中,我们介绍了Yuan2.0,一系列具有21亿到1026亿参数的大型语言模型。Yuan 2.0的架构是通过将注意力与本地化过滤相结合来设计的,这比普通注意力带来了更好的准确性。所提出的非均匀流水线并行、数据并行和优化器并行的分布式训练方法大大降低了节点内通信的带宽要求,在大规模分布式训练中具有良好的性能。与现有模型相比,Yuan 2.0模型在代码生成、数学和聊天方面表现出了良好的能力。我们计划在未来的工作中对Yuan 2.0进行逐步改进。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/135404349