Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

本文是LLM系列文章,针对《Advancing Transformer Architecture in Long-Context Large Language
Models

摘要

随着ChatGPT引爆炸弹,基于transformer的大型语言模型(LLM)为通用人工智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍的限制:许多当前的LLM受到资源的限制,主要是在较短的文本上进行预训练,这使得它们在现实世界中常见的较长上下文提示中效果较差。在本文中,我们提出了一项全面的调查,重点关注基于Transformer的LLM中模型架构的进步,以优化从预训练到推理的所有阶段的长上下文能力。我们首先描述并分析了使用当前基于Transformer的模型处理长上下文输入和输出的问题。然后,我们主要提供一个整体的分类法来导航架构上的Transformer升级,以解决这些问题。之后,我们对广泛使用的针对长上下文LLM的评估必需品进行了调查,包括数据集、指标和基线模型,以及一些令人惊叹的优化工具包,如库、系统和编译器,以提高LLM在不同阶段的效率和效能。最后,我们进一步讨论了该领域未来研究的主要挑战和潜在途径。此外,我们还建立了一个存储库,在https://github.com/Strivin0311/long-llms-learning我们可以实时更新相关文献.

1 引言

2 概述

3 高效的注意力

4 长时记忆

5 外推PEs

6 上下文处理

7 多种多样

8 评估必要性和优化工具包

9 讨论

10 结论

在这项调查中,我们全面浏览了基于Transformer的LLM的体系结构发展前景,以增强在各个开发阶段处理广泛上下文窗口的能力,并对针对Transformer中不同模块设计的这些方法进行了整体分类。然后,我们探讨了针对长文本任务的评估必要性,以及一些集成了许多工具的优化工具包,以提高LLM的效率和效能。我们进一步确定了关键挑战和相应的未来方向。此外,我们的存储库确保读者随时了解这一动态领域的最新研究。随着LLM的快速发展,我们真诚地希望我们的调查能成为研究人员的宝贵资源,帮助他们利用自己的力量构建强大的长期LLM,最终推动AGI时代的发展。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/135273509
今日推荐