【云原生~降本增效】时代到来

一、活动由来:

偶然的一天,通过邮件,发现CSDN和腾讯正在联合举办腾讯云原生正发声的活动,细看了下,这不就是之前一直举办的直播的一个总结吗?之前的直播也看过几期,有《作业帮云原生降本增效实践之路》、《游戏平台上云是花钱还是省钱》,说实话讲的还是不错的。

 于是,参加了这次活动,表单报名后,会自动下载一个电子书,打开一看,150多页的pdf,确实是一本电子书。。。好在利用工作之余,把整本书都看了一遍,虽然电子书的页数比较多,但细一看,发现电子书编排也是比较的用心了,全书围绕核心主题---降本增效。从最开始介绍企业云原生的现状,来抛出为什么降本增效是企业云原生最大的价值,再到技术上的资源分析与优化,提升利用率等,逐一解析,最后通过真实的企业上云案例来突出降本增效是必然之路,完成了一个整体的闭环。

二、电子书简介

1、电子书开篇就介绍了当前企业云原生面临的五大现状和三大趋势。

云原生五大现状:

1. 云原生产业发展迅猛,云原生建设投入比例明显

2. 云原生技术在企业生产环境的采纳率持续攀升

3. 云原生在各行业加速渗透,行业关注点略有差异

4. 降本增效是企业云原生应用的最大价值
5. 企业用云程度加深引发支出浪费问题,云原生成本治理受到关注

  云原生三大趋势:

1. 云原生成为普惠性技术,百花齐放,融合发展

2. 云原生对软件产业的变革将持续深化

3. 云原生始于开源,兴于开源,并将开源推向新高度

并提出如何通过云原生技术进行成本优化,分析出云原生时代,成本管理面临着诸多挑战,如去中心化、浪费严重、业务稳定性等等。通过腾讯自身在面对诸多问题,是怎么实现最佳方案解决的一个实例,达到一个降本增效的开篇。

  2、通过对一系列的技术的讲解,剖析。来达到更好的降本增效效果。

Kubernetes 云上资源的分析与优化:通过分析资源预留带来的资源的浪费、资源紧缺带来的资源浪费、大量资源无法使用导致资源的浪费三个场景,来调度出Crane这个腾讯的开源项目。进一步分析Crane的Kubernetes的资源分析与优化,达到效果的显著提升。

Kubernetes 集群利用率提升实践:集群的利用率低会导致成本居高不下。集群、应用等配置,使用不合理,可能无法持续提升集群资源利用率,导致恶性循环。本章节分享了 Kubernetes 集群利用率提升的几种思路和实现的方式,包括两级扩容机制、两级动态超卖、动态调度、动态驱逐,保证了节点在高负载的情况下稳定运行。

云原生混部标准解读:通过对腾讯产品Caelus 全场景在离线混部的思考与实践案例分享,来探讨云原生混部标准的方案和要具备哪些能力要求,要具备哪些关键技术。

混部能力要求:

业务——已申请但未使用的量、在降本的过程中,可以对该部分的使用量进行缩减。在云
               原生领域,可以基于容器实现精细化资源管理。

系统——已分配但未使用的量,传统的基于虚拟机所分配的资源只能给系统使用,不够灵活                 的情况下,无法对该部分资源进行共享。而使用基于容器的 Request 和 Limit 可以                 对资源用量进行有效判断与管控。

应用——峰谷效应的空闲量,应用在资源使用的波谷阶段会产生大量资源空闲量,此时可以                 对该部分资源进行填充,通过横向、纵向扩缩容,实现资源弹性供给及服务编排调                 度。

混部关键技术:

基础设施:优先抢占、负载感知、干扰识别以及 QoS 保障等;

平台混部:精细化资源编排、智能化资源超卖、服务化任务感知以及定制化冲突处理等;

业务应用:Spark、Flink、Hadoop、AI Jobs 等。

下附Caelus 全场景在离线混部图。

通过云原生管理 Kubernetes GPU 资源:介绍了如何使用云原生的方式管理 GPU 资源以及通过 qGPU 共享方式提高 GPU 使用率,降低了集群层面 GPU 资源的管理难易程度,使用效率得到提升。

qGPU的三大功能:

• 多容器共享 GPU;
• 算力 / 显存强隔离;
• 在离线混合部署。

 qGPU的特点:

• 灵活性:精细配置 GPU 算力占比和显存大小;
• 强隔离:支持显存和算力的严格隔离;
• 在离线:支持业界唯一在离线混部能力,GPU 利用率压榨到极致;
• 覆盖度:支持覆盖主流卡 T4、V100 及 Ampere 架构 A10、A100 等;
• 云原生:支持标准 Kubernetes 和 NVIDIA Docker;
• 兼容性:业务不重编、CUDA 库不替换、业务无感;
• 高性能:GPU 设备底层虚拟化,高效收敛,吞吐接近 0 损耗。

下附qGPU 技术框架图。

 Kubernetes 精细化调度助力容器资源分配:围绕着Kubernetes 的资源拓扑感知调度的主题展开。从 CPU 体系结构和吵闹的邻居问题切人,随后阐述了原生 Kubernetes 的不足和混部场景下的算力感知的局限,最后从采集节点拓扑资源、扩展Kubernetes 调度器、多级资源 QoS 分配策略几个方面给出了相应的解决方案。在策略的优化后,资源得到更合理地利用。

 此时需要采取 Exclusive 策略:

• 离线 CVM 通过内核 VMF 调度器获取低优的 CPU 时间片;
• 离线 Pod 通过独占 CPU 内核心的方式,保证互不干扰;
• 内核 VMF 调度器保证离线 Pod 在忙时,可实现核心漂移,充分利用 CPU 资源。

此时需要采取 NUMA 策略:

• 离线 Pod 通过限制 Cgroups,获取低优的 CPU 时间片;
• 离线 Pod 绑定整个 NUMA node,防止某几个 CPU 内核心被压制;
• 离线 Pod 共享整个 NUMA node,充分利用 CPU 资源。

 3、典型的例子:通过对三个典型的行业领域,【教育行业:作业帮云原生降本增效实践之路、游戏行业:游戏平台上云是花钱还是省钱、电商行业:京东云原生大规模实践之路】,列举出了各行业为什么要降本增效,降本增效的痛点在哪里,难点在哪里,关键点在哪里,并逐一对各行的现状进行分析,通过对技术进行研究,通过降本增效后,成本都大幅度减少,完美的拥抱了云原生。

4、Eunomia 云原生资源编排优化:应用资源使用设置不合理、同类 Pod 各项资源有差异、多维度空闲资源碎片化严重等这些问题,都造成云上资源浪费,面对资源使用的痛点、难点。Eunomia能够更好的对资源进行编排优化,可以在成本及稳定性等多个方面实现较大提升。

三、总结

云原生是一种新兴的软件开发利用云计算原理进行开发、部署和管理的方法。它可以提高开发效率、降低部署成本、并能够更好的支持持续集成和持续交付等开发流程。通过云原生的方式,我们可以更加灵活和高效地进行软件开发和部署,从而提高我们的效率和竞争力。

降本增效是云原生的好处之一,因为它可以通过云原生的方式,将企业的IT基础设施成本、软件开发成本和运维成本均降低。云原生技术可以将企业的应用程序与微服务打包到容器中,这样就可以更快地进行部署和更新,从而降低了开发、测试和部署的时间和成本。同时,云原生的自动化部署和弹性扩展能力,还可以让企业快速适应市场变化和应对业务增长,从而提高了生产力和竞争力。

总之,云原生是一种非常有前途的技术,它可以帮助我们更好地应对当前和未来的IT挑战,提高我们的效率和创新能力。

猜你喜欢

转载自blog.csdn.net/m0_58954887/article/details/130061044