Distributed Inference and Fine-tuning of Large Language Models Over The Internet

本文是LLM系列文章,针对《Distributed Inference and Fine-tuning of Large Language Models Over The Internet》的翻译。

互联网上大型语言模型的分布式推理与微调

摘要

大型语言模型(LLM)在许多NLP任务中都很有用,并且随着规模的增加而变得更加强大,最好的开源模型具有超过500亿个参数。然而,使用这些50B+模型需要高端硬件,这使得大多数研究人员无法使用它们。在这项工作中,我们研究了LLM的成本高效推理和微调方法,比较了局部策略和分布式策略。我们观察到,即使在消费级网络中的地理分布设备上,足够大的模型(50B+)也可以有效运行。这可以通过汇集多个研究小组和志愿者的空闲计算资源来高效地运行LLM。我们解决了两个悬而未决的问题:(1)如果任何设备可能突然断开连接,如何可靠地进行推理和微调;(2)如何在硬件不均衡的设备之间划分LLM,随意连接和离开。为了做到这一点,我们开发了特殊的容错推理算法和负载平衡协议,这些算法和协议可以自动分配设备,以最大限度地提高系统的总吞吐量。我们在PETALS1中展示了这些算法,PETALS1是一个去中心化的系统,在互联网上运行Llama 2(70B)和BLOOM(176B),比卸载交互生成快10倍。我们评估了我们的系统在模拟条件和横跨两大洲的真实世界设置中的性能。

1 引言

2 背景:高效训练和推理

3 方法

4 实验

5 结论

在本文中,我们介绍了一种新的容错算法,用于推理大型语言模型。最重要的是,我们引入了一种去中心化系统,用于在通过互联网连接的分布式不可靠设备上运行LLM,它显著优于在消费级硬件上运行推理的其他方法。我们证明了所提出的系统可以扩展到具有数千亿可训练参数的最大公共语言模型。
虽然我们的工作侧重于技术方面,但重要的是要考虑我们方法的局限性,例如外部同行处理的数据的隐私,以及使LLM更容易访问的更广泛影响。我们在附录H中讨论了这些问题,并概述了未来工作的方向。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/135064268
今日推荐