昇思 MindSpore 大模型关键技术与规划

点击查看完整活动回顾: https://my.oschina.net/u/4489239/blog/11105657
 
点击跳转 5 月 18 日深圳源创会预告: https://www.oschina.net/event/2332004
4 月 20 日,第 102 期源创会在武汉成功举办。本期邀请来自武汉人工智能研究院、华为、MindSpore、京东云、Gitee AI 的人工智能专家,围绕【大模型竞技与性能优化】主题发表演讲。 MindSpore Research Engineer 陈子恒带来《昇思 MindSpore 大模型关键技术与规划》主题演讲。陈子恒介绍,在行业中,MindSpore 介于底层芯片硬件与上层行业应用之间。MindSpore 在大模型技术方面,首先做的是基础层,覆盖了多个底层大模型,在上层则是与行业伙伴构建行业模型。此外,MindSpore 也兼容了国内外多款主流的开源大模型。针对所有大模型,MindSpore 通过 MindFormers、MindPET、MindRLHF 三个基础套件,统一大模型开发、微调和部署等全流程,实现开箱即用。
 
针对大模型训练。MindSpore 采用的是基于计算图的编译器来实现并行策略。输入一张计算图,MindSpore 的图编译过程会将图按照并行策略进行切分,并在其中自动插入数据的重排算子,来保障多机的并行计算逻辑与单机一致。通过这种方式,MindSpore 实现了多个层次的优化,包括顶层的自动策略生成,多维度的混合并行,以及在运行时支持多维存储和异构的优化。
 
从去年开始,MindSpore 团队也一直在做大模型的并行训练。通常情况下,典型的大模型训练会混合使用 5 种并行策略,包括数据并行、优化器并行、模型并行、流水并行、重计算。MindSpore 团队分析了典型模型在这些并行模式下的耗时情况,发现这里的主要开销在三个方面,包括算子级模型并行的开销、pipeline 并行产生的 bubble、数据并行的拖尾时间。并且当集群规模不断增大,到万卡集群的时候,这些开销的问题会更明显,例如由于 global batchsize 的受限,pipeline 的 bubble 问题会更严重,并且由于通信域增大,通信性能会劣化,数据并行的拖尾占比会升高。
 
对于这些问题,陈子恒也介绍了一些解决方法,比如多副本并行模式隐藏模型通信,将数据一分为二,每个数据可以独立的进行计算和通信,而多份数据之间的计算和通信就可以相互隐藏了,以此优化算子级模型并行。对于 PipeLine 并行优化,通过 PipeLine Interleave 把 Bubble 降低到 10% 以。
 
此外针对 MoE 训练时会遇到冷热专家的问题,对于专家热迁移,降低 AlltoAll 通信量,提升 MoE 模型训练性能。除了高性能训练,大模型还有一个问题是怎么做策略并行,MindSpore 采取的是自动并行,大模型并行策略调优时间月级可以降为小时级。
 
部署方面,MindSpore 相当于是 severless 的后端,需要解决的是效能问题。MindSpore 通过分布式并行推理、K-V Cache、动态 seq、continue batch、高性能推理融合算子,构建低时延、高吞吐、支持长序列大模型统一推理框架。训推一体架构,使得训练到推理无缝衔接。
 
接下来,MindSpore 在大模型训练方面的规划涵盖万卡大集群训练性能优化、稠密大模型性能优化、稀疏 MoE 大模型性能优化等方面,在大模型推理方面计划更加深入研究大模型训推一体架构、稠密大模型推理加速、稀疏大模型推理加速等。
 
扫码观看《昇思 MindSpore 大模型关键技术与规划》演讲回放 ⬇️
高中生自创开源编程语言作为成人礼——网友锐评:依托答辩 Apple 发布 M4 芯片 RustDesk 由于诈骗猖獗,暂停国内服务 云风从阿里离职,未来计划制作 Windows 平台的独立游戏 淘宝 (taobao.com) 重启网页版优化工作 程序员的归宿 Visual Studio Code 1.89 发布 Java 17 是最常用的 Java LTS 版本 Windows 10 市场份额达 70%,Windows 11 持续下滑 开源日报 | 谷歌扶持鸿蒙上位;开源Rabbit R1;Docker加持的安卓手机;微软的焦虑和野心;海尔电器把开放平台关了
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4489239/blog/11105664