AI Cloud将百花齐放,青云科技已先走了一步

2c7ab8296c433b94e95b75a81c2ea753.jpeg

三年前,国家超级计算济南中心(济南超算)悄悄干了一件大事,投资数十亿元致力于打造一个融HPC超算、传统云计算(以CPU为主)和智算(以GPU为主)为一体的多元算力中心,这就需要一个统一的并且可以对外开放的运维和运营平台。那时还在打磨阶段的青云科技自主研发的AI算力调度平台,帮助济南超算建立了从建设到运营的闭环,对CPU、GPU、HPC等不同算力资源进行统一调度与统一运营,很好地支撑了济南超算的异构算力服务创新。

eb73206eeb069eca2abe7e114b0c68b0.png

人工智能的机会来了

济南超算在算力服务上的创新,其实是我国超算行业持续演进的一个缩影。从以前专注于少数高精尖的科学计算应用,到后来乘云直上,超算云的概念逐渐被业界所接受,到现在从国家层面大力倡导超算互联网平台的建设,超算算力正加速开放化、服务化和社会化,变成一种普通企业也能唾手可得的算力资源。

由超算行业反观整个算力行业的发展,其演进的路径是一致的。从传统的物理机时代到虚拟化、云计时代,再过渡到云原生时代,直至当前以AI为驱动的数智化时代,算力以及算力的应用因为云、AI、大模型等的牵引有了翻天覆地的变化。在架构上从以CPU为核心演进到以GPU为核心,在应用上从主要满足延迟敏感应用的需求发展到“成本敏感+延迟敏感”并重,算力不仅要支撑移动互联网应用与数字化转型,更要在人工智能与数智化的双重挑战下,充分释放其澎湃的力量。

实际上,不仅用户的需求、市场和技术的发展趋势如此,算力企业自身的成长与成熟也在重复和演绎相同的路径。以青云科技为例,从2013年开始,移动互联网的热潮、公有云服务的兴起,催生出一个巨大的增量市场。乘着数字化转型之东风,青云科技借由私有云迎来了属于自己的第一波业务增长潮。接着第二波增长潮很快到来,那就是信创及国产化替代,通过提供公有云、私有云和信创全栈云,青云科技在这一波大潮中成功“上岸”(上市)。现在,第三波浪潮正在席卷而来。不过与前两波浪潮相比,这一波的浪头比较急、比较猛,甚至比较寒冷。后疫情时代的不确定性增加,全球经济发展环境的动荡等综合因素,让过去的增量市场变成了现今的存量市场,甚至是减量市场,企业的竞争与生存更加艰难。包括青云科技在内,所有的厂商都在寻找一个新的确定的机会或者说一个突破点。这就是人工智能。

“人工智能这个市场机会已经来了,而且它一定会带来一波长达十年以上,而且比过去十年更大的市场需求和机会。”青云科技总裁林源非常肯定且自信地表示,“可以预见,未来AIGC的投入占企业IT投入的比重一定会越来越高,这是客户与市场的需求共同决定的。客户对于底层算力的要求会越来越高。人工智能对于算力的刺激和带动相比十年之前,一定会有十倍甚至百倍的提升。”

算力将像热力、电力、水力等资源一样,变得不可或缺,并成为拉动数字经济发展的重要引擎。算力企业如何抓住这波AI算力的红利,这个考验将十分艰巨。

十年之前与十年之后

“这是最好的时代,也是最坏的时代。”每当有巨大的时代变迁,我们总喜欢引用这句话。当以ChatGPT为代表的生成式AI快速崛起的时候,我们恐怕又要重复这句话了。AI将催生一个全新的算力时代。

虽然我们可能还有这样或那样的担心,但是现在我们必须积极地拥抱AI。为什么?第一,在当前的环境下,所有人都需要一个新的生产工具,以提升效益和效能。而AI正是我们所需的最强有力的新生产力工具。第二,AI的加持可以大大降低用户使用应用的门槛。以前,实现人机互动要敲击键盘或滑动鼠标,但是基于AI,我们通过语音、动作就能轻松实现交互。这两个因素叠加使得全社会对AI的需求量成倍增长,这背后就需要源源不断的算力作为支撑。

“AI和大模型推动了生产力的变革。在此变革过程中,从客户的需求到IT底层架构再到应用本身,都将发生巨大变化。而变化的好处是将带来新的机会。所有人将重回同一起跑线,重新争夺脱颖而出的机会。”林源如是说。

过去的十年,是云计算在中国蓬勃发展的十年。随着云计算的普及,我们看到了新的应用和服务场景不断涌现,不管是移动互联网还是数字化,大多数应用都是跑在CPU上的。在这个阶段,CPU驱动了应用革新。当AI和大模型渐成主流,几乎所有的应用都开始拥抱AI技术或者被AI所改造,AI将很多原来不能做的事情变成可能,数字化也演进到数智化阶段。从“字”到“智”,虽然只是一字之差,但这正是变革的决定因素。

公开财报显示,NVIDIA在上个季度的收入已经超过了英特尔。这就是一个信号。在很多大型互联网企业的IT设备采购中,GPU的采购量已经超越CPU。未来的时代将是一个以GPU为核心的时代,毋庸置疑。

当初,“东数西算”工程刚刚启动之时,很多人还质疑“西算”的合理性。但是看看现在,西部的算力中心、智算中心建设如火如荼。“大量的西部能源公司慢慢发现电力即算力,所以能源公司不再卖电,而是开始卖算力。因为大家相信,未来‘西算’的应用一定会起来,成本敏感型的AI应用一定会在西部数据中心找到适合的场景。”林源表示,“未来的算力将是分散分布的,既有东部的算力,也有西部的算力。”

在未来十年甚至更长的时间里,像青云科技这样的算力提供商将要面对更复杂和多样化的应用,对于底层算力的要求,既有CPU也有GPU,既有成本敏感业务也有延迟敏感业务,而业态更丰富意味着对于技术和平台的挑战也更大。以何种心态、技术储备、产品和服务,以及生态策略应对数智化时代AI对算力提出的更高更快更强,以及服务化、可运营的要求,是所有算力提供商的一道必答题。

关键还是AI算力如何调度

为了满足AI应用的需求,各地都在积极上马智算中心。区别于传统的数据中心,智算中心的建设与运维是一个新的课题,也面临新的挑战:智算中心投资规模巨大,平台能力与运营效率将成为运作的关键;从技术和运营的角度来看,智算中心的建设更加专业且复杂;从数据的隐私性和属地性特征来看,智算中心建设更加分散,运营能力参差不齐;智算中心要更好地支持业务的多样化。

解决上述问题,关键是需要一个算力调度平台。9月19日,青云科技AI算力调度平台正式发布。AI算力调度平台是智算中心运营者的核心工具,它主要面向智算中心现在的投资者和未来的运营者。“济南超算这样的成功案例已经说明,我们的AI算力调度平台具备客户所需的完整能力;三年前,我们就已经具备了开发AI算力调度平台的能力;我们的AI算力调度平台得到了实践检验,济南超算不仅运营得很好,而且还实现了盈利。”林源表示,“这就是青云科技的新机会。作为一家中立的云服务商,青云科技会与生态伙伴紧密协作,站在用户的背后,提供智算中心所需的产品和服务的支撑,为用户提供更好的选择。”

“我们将所有与AI、GPU相关的产品,独立提出来,并结合以前的整体智算解决方案,最终打造出现在的AI算力调度平台。”青云科技产品经理苗慧介绍说,“我们的AI算力调度平台可以实现多区域、多地点,面向不同业务进行算力调度。”

归纳来说,青云科技AI算力调度平台主要从以下四个维度进行研发和优化:为国内外多种架构的芯片提供支持和优化;所有资源和产品一旦进入云平台,青云科技就会提供全生命周期的管理;面向AIGC,青云科技做了大量业务化的实践;实现更多的自动化,让非计算机行业的用户也能一键运行其数据、业务和模型等。

本次发布的青云科技AI算力调度平台具有九大关键能力:多区多业务资源整合、混合组网、容器推理服务平台、分布式调度与管理、算法开发支持、模型仓库(MaaS)、AI训练平台、灵活调度、高速并行存储。

相比其他的AI调度平台,青云科技AI算力调度平台的差异化具体表现在:针对大集群(比如上百台机器的集群),青云科技研发了更加优化的调度算法,比如在亲和政策、反亲和政策以及调度的链路标签上,做到尽可能地调度同一个交换机,让数据少绕路; 在应用环境上,青云科技采用Kubernetes和Slurm两种调度平台同时为客户服务,并且是完全集成好的,在颗粒度和运维传统机器方面也有更多优化。

AI Cloud是一个生态同盟

打个比方,AI算力调度平台就像是智算中心的“神经中枢”,而这也只是青云科技技术能力的一种体现。作为云服务商,青云科技的“老本行”还是要在云上更好地满足AI对算力的新需求。于是,青云科技AI算力云应运而生。

林源介绍说:“AI算力云是以青云科技为主,对外运营的一项AI算力服务。青云科技将以生态的方式,与合作伙伴联营AI算力云。”为什么不自己大包大揽?过去十年中,确实有许多大厂喜欢从硬件、软件到平台的自建、自投、自营。但这种模式已经不能适应AI时代的要求:一是厂商自己干得越多,研发费用就越高,成本越重,经营和运作的压力也更大;二是在AI时代,做好每一层的成本都比过去更高,比如大模型只是算力云中薄薄的一层,而一个大模型诞生所花费的人力、财力、算力却是普通企业所无法承受的。

站在客户的角度,肯定需要一个完整的解决方案,包括机房、算力、调度平台、模型、应用等。从供应商的角度,当然也希望全面满足客户的需求。因此,我们可以大胆地预测,AI算力领域将出现新的巨头,但这个巨头可能不是一个独立的公司,而是一个小的生态,因为要做的事情实在是太多了。按照青云科技的设想,AI算力云服务的定位是一个开放的生态同盟,青云科技将汇聚志同道合的伙伴,通过“同盟”的方式共同运营AI算力云服务。

“客户需要完整的解决方案,生态是最好的解决之道;生态中的每一个参与者都必须是专业的且彼此需要,所以基本原则是开放协作;AI算力云应该是一个长期共赢的同盟。”林源表示,“青云科技希望基于一个开放、成熟、可运营的AI算力调度平台,通过自营、合营乃至支撑第三方运营的方式,与生态同盟一起为客户提供AI Cloud。”青云科技将从以下三个方面打造AI算力服务生态:AI算力基础设施的生态共享、AI算力大模型的资源整合,以及AI数据资源的生态整合。

基于青云科技公有云的AI算力云,提供了更多产品,包括裸金属服务器、虚拟化服务器、高速网络、训练集群、推理集群、镜像仓库和并行文件存储等。

俗话说,术业有专攻。青云科技并不是什么都要插手,而是只做自己最擅长的,也就是AI算力调度平台。AI算力调度平台其实与原来的云调度平台、IaaS等是一脉相承。这是青云科技的优势,也是差异化的价值所在。

可以预见,在中国,AI Cloud将百花齐放。

往/期/回/顾

“吃定”算力,青云直上“东数西算”

写给青云十周年的散文诗

潮水褪去,长期主义者青云科技何时迎来收获期?

猜你喜欢

转载自blog.csdn.net/Bmo40mqfG249H/article/details/133108296