一云多芯,智能化转型的下一个工程化挑战

进入2023年,产业数字化和智能化转型升级进入了大规模工程化落地阶段。根据中国信通院《中国数字经济发展研究报告(2023)》,数字经济已经占我国GDP比重达到41.5%,相当于第二产业占国民经济的比重。随着产业数字化和智能化程度的提升,算力服务越来越成为数字经济的底座。中国信通院测算,算力每投入1元,将带动3至4元的GDP经济增长。

所谓算力服务,即以多样性算力为基础,以算力网络为连接,以供应有效算力为目标的算力产业。中国信通院指出,目前算力服务供应形态主要以云服务为主,同时超算、智算和社会闲散算力等多样算力的任务式供给形态,也在积极探索与试验过程中。而云计算作为数字世界操作系统,云服务正在统筹超算、智算和普算而成为算力输出的主要界面。

芯片是算力的基础。为了解决当前在算力建设过程中出现的多芯局面,“一云多芯”理念逐渐获得了广泛的关注。作为国内领先的私有云厂商之一,浪潮云海首席科学家张东在2023中国算力大会上强调,“一云多芯”将成为云计算平台的核心能力之一,不仅是芯与云的融合,更是平台+生态的协同。“一云多芯”将有效解决智能化转型过程中的工程化挑战,以多样化算力帮助政企用户实现可持续的智能化。

算力成为智能化新基建

2023年大模型的爆火将算力基础设施推向新基建的风口浪尖。根据OpenAI发布的《AI and Compute》分析报告,自2012年以来,AI训练应用的算力需求每3.4个月就会翻倍,从 2012年至今,AI算力增长超过了30万倍。根据OpenAI,ChatGPT的总算力消耗约为3640PF-days,相当于当前一座超大城市总算力的3倍。

根据IDC与浪潮信息联合发布《2022-2023 中国人工智能计算力发展评估报告》,IDC预测,中国智能算力规模将持续高速增长,预计到2026年中国智能算力规模将达到1271.4EFLOPS,未来五年复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%。在算力投资中,城市智能算力的投入已经成为推动区域数字经济发展的重要支撑,而2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造,行业AI渗透度明显提升。

(浪潮云海首席科学家张东)

浪潮云海首席科学家张东强调,未来是智能化竞争,必须从信息化走向智能化,否则将完全落后于时代的发展,而智算中心就是未来的新基建。新基建的意义不仅在于可提供商业化服务,更是面向城市的公益性社会基础设施服务,在满足像大模型训练这样任务性的智算需求外,也可将算力资源开放给社会使用,从而广泛培养智能化人才和生态。

在2023中国算力大会现场,浪潮信息展示了目前业界领先的智算中心。该智算中心是一个预制化的、模块化的智算中心,集计算、存储、网络和算力调度于一体,覆盖不同的计算节点兼容国内外主流的CPU和异构加速芯片,可以支撑自动驾驶、生物制药、AIGC、智能制造等多样的应用,这样的一套数据中心可以实现两周内的交付,目前已经落地济南、南京、宿州等多个地区,为区域智能化新基建提供了建设新思路、新路径。

算力之上:标准化云操作系统

正如同当年的PC,之所以能够实现“全世界每一张桌子上都有一台PC”, 关键在于对于各国不同软件和硬件生态的兼容。目前,不同算力的主要对外输出界面就是云服务,那么提高云操作系统的兼容性就是实现算力服务普惠化、泛在化和标准化的关键。随着AI的发展,我们正从以CPU为中心,向GPU、DPU、XPU等多种加速计算芯片共存的算力体系发展,如何让云操作系统兼容多种芯片和指令集以及适配各种上层软件,就成为下一个挑战。

浪潮云海首席科学家张东强调,“一云多芯”要解决不同类型芯片共存所带来的多云管理问题,真正形成一朵云。“一云多芯”将成为IT产业链承上启下的关键环节,对下纳管底层各种芯片、操作系统,对中兼容各种类型的虚拟机、容器、数据库、中间件,对上适配各类云原生应用和软件,从而成为未来云计算平台的核心能力之一。

众所周知,业务应用软件或SaaS服务,需要面对芯片、操作系统、数据库等多种软硬件组合环境,在不同环境中开发、测试并在实际业务中验证和迭代。而在今天的多芯时代,随着各国和各厂商不断发展各自的芯片,可选处理器的范围越来越大,对于云操作系统的适配要求越来越高。但各芯片厂商都有着各自的标准,都希望拉动自有生态,导致云数据中心中各服务器芯片表现参差不一、用户体验难以一致、应用效果大相径庭,进而形成算力孤岛。

因此,“一云多芯”的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切换。换言之,就需要实现应用与芯片架构的彻底解耦,支持应用在不同架构处理器间的等价切换。当然,这首先就需要对于不同芯片算力的统一测算,例如某厂商一个GPU的算力能够对等替换另一厂商多少个GPU的算力,需要达成业界共识;其次,还需要硬件、云和应用等产业链上下游的协同,实现应用层面的跨架构无感知切换;第三,对于开发工具来说,还无法做到完全架构无关,无论是Python或Java所编写出的应用,或多或少都与架构相关,因此需要推动应用开发与架构无关,将相关调用剥离到云操作系统层面处理;第四,数据与应用的分离,将数据层完全隔离,实现架构无关。

整体来看,“一云多芯”看似简单却是一个工程量极大的挑战,用好“一云多芯”就可以最大程度地降低技术路线选择风险,极大提升业务稳定性以及业务改造的灵活性,但要真正实现“一云多芯”却需要整个产业和生态具有共同的信念和决心,将“一云多芯”从标准、架构、测评、测试、开发等多个环节落实下去,真正打破不同架构的算力孤岛、实现不同架构之间的互连互通,而不是纳管不同芯片架构资源池的简单模式。

算力融合:“一云多芯”三步走

云操作系统对于不同芯片、芯片架构和应用软件的兼容,这是一个庞大的全生态的工程。在企业IT技术历史上,无论是VMware的虚拟化软件或是Oracle的数据库,企业IT软件的隐藏核心竞争力其实都是广泛的兼容性。但就像VMware与Oracle等兼容性工程都是由一家厂商主导并耗费多年的时间和投入才逐步实现的,更为重要的是当VMware和Oracle等软件的市场领导地位获得认可后,整个生态都会向VMware和Oracle等软件主动进行兼容。

对于发展历史尚短的云操作系统来说,无法在短时间内真正实现广泛的兼容性。浪潮信息是“一云多芯”的积极倡导者之一,作为独立于芯片、云和生态的第三方厂商,提出了“以应用导向、以系统为中心”、“分层解耦、开放标准”、“迭代创新、持续演进”的一云多芯发展理念,特别是务实地提出了三阶段推进策略,从而实现“一云多芯”的最终目标。

所谓“三阶段”推进策略,即:在第一阶段,实现异构节点统一池化管理,通过离线迁移、手动切换等方式实现应用跨架构,这就是“混合部署、统一管理、统一视图”,解决一云多芯“有”的问题;在第二阶段,在资源层、平台层和应用层实现分层解耦,厂商共同配合实现应用平滑切换及弹性伸缩,这就是“业务迁移、分层解耦、架构升级”,解决一云多芯“好”用的问题;在第三阶段,实现产业链上下游协同配合,打造标准、共同生态,打造垂直一体化方案,这就是“软件定义、算力标准、全栈多芯”,解决化一云多芯“优”化的问题。

张东表示,当前还处于“一云多芯”的第一个阶段,不少厂商或多或少都已经实现了不同程度的第一阶段“一云多芯”,接下来就是要攻坚第二阶段,即在资源层、平台层和应用层实现分层解耦。为此,浪潮信息在前不久推出了融合架构3.0原型机,也就是在服务器整机层面实现彻底的硬件资源解耦。融合架构3.0突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。

融合架构3.0原型机打破了以往“以CPU为中心”的设计理念,从整体出发、以系统为中心,通过硬件解耦将异构计算、内存、存储等资源转变为可独立扩展的资源池,用户可以根据应用需求实现资源的自由扩展。例如,大模型的训练需要更多的显存,但GPU卡带有的显存容量有限,在融合架构3.0的设计下,就可以将系统中的所有内存、显存都打通,极大扩展大模型训练可用的内存,同时也降低了对于GPU的需求。

云海Incloud OS面向“一云多芯”在进行第二阶段改进,特别是在平台层和应用层推进解耦工作。作为Incloud OS的核心技术,根据Gartner的报告,云海服务器虚拟化系统Incloud Sphere连续两年获得国内品牌中国市场份额第一,目前居全球市场份额前四。InCloud Sphere可实现对x86、ARM等多元异构芯片的计算资源池化,最新版本可同时提供针对四种不同架构处理器的统管能力,进一步降低了用户对不同架构基础设施的维护难度。

为了创建了以“一云多芯”为核心的云平台参考基准,前不久云海OS完成了目前业界首个面向“一云多芯”场景的SPEC Cloud基准测试,并在三种处理器节点混合部署集群测试中,相对可扩展性、平均实例配置时间等指标均达到全球领先水平,验证了云海OS在业务应用跨处理器架构场景下的高效率、高性能和高扩展能力。同时,浪潮信息积极参加了由中国信通院牵头制定的《一云多芯技术能力标准体系》,并且云海OS以优异成绩通过一云多芯IaaS平台能力评估,获得“先进级”最高等级认证。

浪潮信息对于“一云多芯”的执着追求来自实际的客户需求。云海OS是业内最早支持“一云多芯”,拥有丰富的行业应用落地经验的。从2018年开始,浪潮信息依托云海OS帮助政府、金融、能源、交通等行业的数百家客户打造了“一云多芯”行业云,例如云海OS助力某省构建了国内规模最大、芯片种类最多的省级政务云平台,覆盖近2000台、三种架构处理器的服务器,并全面集成了基础软硬件、云平台、安全系统、运维管理系统、应用系统等。

整体而言:“一云多芯”是算力服务和云操作系统在全球芯片格局动荡和供应链不确定时期的应对之道,也是基于开源技术的云操作系统在发展到一定成熟阶段后的必由之路。相对于传统的服务器虚拟化软件,云操作系统遇到了更为复杂的多芯环境,需要同时面对多种成熟和发展中的芯片技术路线,这对于云操作系统的产品成熟度提出了更高的要求,也倒逼云操作系统厂商进行原始创新,走出独立创新之路。“一云多芯”也将从长期保障中国智能化的可持续发展,在全球智能化竞争中建立核心竞争力。(文/宁川)

猜你喜欢

转载自blog.csdn.net/achuan2015/article/details/132459539