浪潮信息:携开放网络,为大模型网络提供新选择

近年来,大模型带来了未曾预见的生产力变革。在大模型的推动下,诸多技术的发展也都超出了我们原有的认知和预判,这其中就包括网络。

以往,在人工智能领域,算力、算法和数据是驱动人工智能发展的三大马车,网络连接的作用,并未被人们重视,如今伴随着大模型训练动辄需要数千张GPU卡的算力,使得服务器之间的通信需求变得巨大,导致网络带宽、时延一跃成为数据中心GPU集群系统的最大瓶颈之一。

一时间,网络行业各路人马竞相寻找突破点。近日在北京举行的2023年开放计算中国社区技术峰会(OCP China Day 2023)上,我们获知了“开放网络”相关技术之于大模型发展所作出的变革和助力。

开放网络大模型网络的新选择

开放技术通过IT基础架构产品、规范、知识产权等成果的共享,推动和加速技术创新,有效地支持各行业对IT基础架构不断增长的需求。开放技术已经在计算领域获得巨大成功,头部云服务商的数据中心都是基于开放计算技术构建,加速云计算业务的创新。

而随着越来越多的业务实现数字化,数据中心的网络流量激增,催生了更大的网络带宽需求,为实现网络资源灵活扩展和敏捷运维,网络解耦需求愈加迫切。开放网络通过网络硬件设备与软件代码的分离,实现了网络的软硬解耦,创造出一种更加灵活、敏捷和可编程的网络架构。总体来说,开放网络可以实现总体拥有成本降低1/3、新业务上线时间缩短50%、成倍提升整体运维效率。

据浪潮信息网络研发部总经理李鹏翀分享,开放网络通过网络硬件与软件的分离,加速创新迭代步伐,创造出更加灵活、敏捷和可编程的网络架构,为AIGC大模型网络提供全新选择。

首先,大模型升级速度之快,对网络带宽提出更高的要求——要求网络硬件能快速创新,当芯片出来之后,要马上推出能跟得上的交换机、网络设备。

其次,由于大模型是一个端到端的流量模型,必须要有网卡、交换机配合,因此网卡、交换机需要解决两个核心问题,一是端到端的流控,要有好的解决网络拥塞的算法;二是要做好网络流传输的负载均衡。

再次,针对MaaS(Model as a Service,模型即服务)对硬件的不同需求,开放网络能够确保构建弹性的网络,实现网络资源的快速分配和切割,同时还能确保多租户之间的安全性隔离。

而传统的封闭网络,其创新和迭代基本上是以年为单位的,很大程度上满足不了大模型网络的需求,所以现在市面上真正比较成熟的大模型网络大多是基于开放网络的产品和理念架构。

浪潮信息打造高性能无损以太解决方案 

众所周知,大模型训练需要算力、算法、存储和网络传输等多方面的关键技术作为支撑,当前算力和存储技术已经在快速发展,需要更大带宽和更低时延的网络解决方案。

浪潮信息基于在开放网络方面的多年积累,通过400G高性能交换机和智能网卡为大模型训练打造了一套高性能无损以太解决方案。该方案的交换机网络支持基于Packet转发模式,在智能网卡上实现基于收端的主动拉流通知和报文乱序调整的机制。这种创新模式解决了传统ECMP路由分担的链路负载不均衡缺陷,从网络层面避免了拥塞的产生,在提供400G高带宽的基础上大大降低转发时延,充分满足了大模型训练加速的需求。

此外,针对分布式存储和超融合等加速业务场景,浪潮信息提供了端到端的RoCE解决方案,交换机运行自研的UXOS网络操作系统,搭建Spine/Leaf构架的无阻塞网络;借助自研的可视化网络智能调度控制平面,基于UXOS的可编程INT技术,针对客户不同业务场景实时采集网络设备的流量特征和拥塞状态,在智能调度控制平台通过算法自动调整交换机和网卡的PFC/ECN/DCQCN等RoCE配置参数,支持客户业务网络的快速部署和最优化的配置;同时,积累了大量的加速业务场景的典型参数配置,可以支持客户业务轻松上线。

开放网络不断进化推动数据中心网络技术创新

当前,百模大战愈演愈烈,更多的行业大模型也在涌入战场,这为大模型的快速进化提供了更多可能,由此对开放网络的需求也将不断演进。在浪潮信息网络研发部副总经理陈翔看来,开放网络未来有三个可提升的方向。

一是更好的端到端的流动算法。目前的RDMA(网络)用的比较多的是DCQCN算法。大模型时代到来了之后,这个算法已不能完全覆盖真正的对大模型流控的要求,所以需要更好的流控算法。

二是网络的多路径选择作为一直的话题,有待进一步提升。

三是现有网络的传输层,还是基于几十年前的 IB的传输层进行修复,要想彻底发挥网络力量,可能需要对整个传输层进行重构。

整体来看,计算多元化、应用多样化、技术复杂化正在驱动数据中心新一轮变革,开源开放社区已成为推动数据中心持续创新的重要力量,通过全球化协作与创新,合力解决数据中心基础设施迭代与可持续发展等重大问题。以浪潮信息为代表的开放网络企业,正在通过构建从硬件生态到软件生态再到管理生态的完整的产业生态,不断提升开放网络生态影响力,为AIGC组网提供全新选择。

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/132564323