Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

本文是LLM系列文章，针对《Advancing Transformer Architecture in Long-Context Large Language
Models

在长上下文大型语言模型中推进Transformer体系结构：综述

摘要
1 引言
2 概述
3 高效的注意力
4 长时记忆
5 外推PEs
6 上下文处理
7 多种多样
8 评估必要性和优化工具包
9 讨论
10 结论

摘要

随着ChatGPT引爆炸弹，基于transformer的大型语言模型（LLM）为通用人工智能（AGI）铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域。然而，存在一个普遍的限制：许多当前的LLM受到资源的限制，主要是在较短的文本上进行预训练，这使得它们在现实世界中常见的较长上下文提示中效果较差。在本文中，我们提出了一项全面的调查，重点关注基于Transformer的LLM中模型架构的进步，以优化从预训练到推理的所有阶段的长上下文能力。我们首先描述并分析了使用当前基于Transformer的模型处理长上下文输入和输出的问题。然后，我们主要提供一个整体的分类法来导航架构上的Transformer升级，以解决这些问题。之后，我们对广泛使用的针对长上下文LLM的评估必需品进行了调查，包括数据集、指标和基线模型，以及一些令人惊叹的优化工具包，如库、系统和编译器，以提高LLM在不同阶段的效率和效能。最后，我们进一步讨论了该领域未来研究的主要挑战和潜在途径。此外，我们还建立了一个存储库，在https://github.com/Strivin0311/long-llms-learning我们可以实时更新相关文献.

1 引言

2 概述

3 高效的注意力

4 长时记忆

5 外推PEs

6 上下文处理

7 多种多样

8 评估必要性和优化工具包

9 讨论

10 结论

在这项调查中，我们全面浏览了基于Transformer的LLM的体系结构发展前景，以增强在各个开发阶段处理广泛上下文窗口的能力，并对针对Transformer中不同模块设计的这些方法进行了整体分类。然后，我们探讨了针对长文本任务的评估必要性，以及一些集成了许多工具的优化工具包，以提高LLM的效率和效能。我们进一步确定了关键挑战和相应的未来方向。此外，我们的存储库确保读者随时了解这一动态领域的最新研究。随着LLM的快速发展，我们真诚地希望我们的调查能成为研究人员的宝贵资源，帮助他们利用自己的力量构建强大的长期LLM，最终推动AGI时代的发展。