一、活动由来：

偶然的一天，通过邮件，发现CSDN和腾讯正在联合举办腾讯云原生正发声的活动，细看了下，这不就是之前一直举办的直播的一个总结吗？之前的直播也看过几期，有《作业帮云原生降本增效实践之路》、《游戏平台上云是花钱还是省钱》，说实话讲的还是不错的。

于是，参加了这次活动，表单报名后，会自动下载一个电子书，打开一看，150多页的pdf，确实是一本电子书。。。好在利用工作之余，把整本书都看了一遍，虽然电子书的页数比较多，但细一看，发现电子书编排也是比较的用心了，全书围绕核心主题---降本增效。从最开始介绍企业云原生的现状，来抛出为什么降本增效是企业云原生最大的价值，再到技术上的资源分析与优化，提升利用率等，逐一解析，最后通过真实的企业上云案例来突出降本增效是必然之路，完成了一个整体的闭环。

二、电子书简介

1、电子书开篇就介绍了当前企业云原生面临的五大现状和三大趋势。

云原生五大现状：

1. 云原生产业发展迅猛，云原生建设投入比例明显

2. 云原生技术在企业生产环境的采纳率持续攀升

3. 云原生在各行业加速渗透，行业关注点略有差异

4. 降本增效是企业云原生应用的最大价值
5. 企业用云程度加深引发支出浪费问题，云原生成本治理受到关注

云原生三大趋势：

1. 云原生成为普惠性技术，百花齐放，融合发展

2. 云原生对软件产业的变革将持续深化

3. 云原生始于开源，兴于开源，并将开源推向新高度

并提出如何通过云原生技术进行成本优化，分析出云原生时代，成本管理面临着诸多挑战，如去中心化、浪费严重、业务稳定性等等。通过腾讯自身在面对诸多问题，是怎么实现最佳方案解决的一个实例，达到一个降本增效的开篇。

2、通过对一系列的技术的讲解，剖析。来达到更好的降本增效效果。

Kubernetes 云上资源的分析与优化：通过分析资源预留带来的资源的浪费、资源紧缺带来的资源浪费、大量资源无法使用导致资源的浪费三个场景，来调度出Crane这个腾讯的开源项目。进一步分析Crane的Kubernetes的资源分析与优化，达到效果的显著提升。

Kubernetes 集群利用率提升实践：集群的利用率低会导致成本居高不下。集群、应用等配置，使用不合理，可能无法持续提升集群资源利用率，导致恶性循环。本章节分享了 Kubernetes 集群利用率提升的几种思路和实现的方式，包括两级扩容机制、两级动态超卖、动态调度、动态驱逐，保证了节点在高负载的情况下稳定运行。

云原生混部标准解读：通过对腾讯产品Caelus 全场景在离线混部的思考与实践案例分享,来探讨云原生混部标准的方案和要具备哪些能力要求，要具备哪些关键技术。

混部能力要求：

业务——已申请但未使用的量、在降本的过程中，可以对该部分的使用量进行缩减。在云
原生领域，可以基于容器实现精细化资源管理。

系统——已分配但未使用的量，传统的基于虚拟机所分配的资源只能给系统使用，不够灵活的情况下，无法对该部分资源进行共享。而使用基于容器的 Request 和 Limit 可以对资源用量进行有效判断与管控。

应用——峰谷效应的空闲量，应用在资源使用的波谷阶段会产生大量资源空闲量，此时可以对该部分资源进行填充，通过横向、纵向扩缩容，实现资源弹性供给及服务编排调度。

混部关键技术：

基础设施：优先抢占、负载感知、干扰识别以及 QoS 保障等；

平台混部：精细化资源编排、智能化资源超卖、服务化任务感知以及定制化冲突处理等；

业务应用：Spark、Flink、Hadoop、AI Jobs 等。

下附Caelus 全场景在离线混部图。

通过云原生管理 Kubernetes GPU 资源：介绍了如何使用云原生的方式管理 GPU 资源以及通过 qGPU 共享方式提高 GPU 使用率，降低了集群层面 GPU 资源的管理难易程度，使用效率得到提升。

qGPU的三大功能：

• 多容器共享 GPU；
• 算力 / 显存强隔离；
• 在离线混合部署。

qGPU的特点：

• 灵活性：精细配置 GPU 算力占比和显存大小；
• 强隔离：支持显存和算力的严格隔离；
• 在离线：支持业界唯一在离线混部能力，GPU 利用率压榨到极致；
• 覆盖度：支持覆盖主流卡 T4、V100 及 Ampere 架构 A10、A100 等；
• 云原生：支持标准 Kubernetes 和 NVIDIA Docker；
• 兼容性：业务不重编、CUDA 库不替换、业务无感；
• 高性能：GPU 设备底层虚拟化，高效收敛，吞吐接近 0 损耗。

下附qGPU 技术框架图。

Kubernetes 精细化调度助力容器资源分配：围绕着Kubernetes 的资源拓扑感知调度的主题展开。从 CPU 体系结构和吵闹的邻居问题切人，随后阐述了原生 Kubernetes 的不足和混部场景下的算力感知的局限，最后从采集节点拓扑资源、扩展Kubernetes 调度器、多级资源 QoS 分配策略几个方面给出了相应的解决方案。在策略的优化后，资源得到更合理地利用。

此时需要采取 Exclusive 策略：

• 离线 CVM 通过内核 VMF 调度器获取低优的 CPU 时间片；
• 离线 Pod 通过独占 CPU 内核心的方式，保证互不干扰；
• 内核 VMF 调度器保证离线 Pod 在忙时，可实现核心漂移，充分利用 CPU 资源。

此时需要采取 NUMA 策略：

• 离线 Pod 通过限制 Cgroups，获取低优的 CPU 时间片；
• 离线 Pod 绑定整个 NUMA node，防止某几个 CPU 内核心被压制；
• 离线 Pod 共享整个 NUMA node，充分利用 CPU 资源。

3、典型的例子：通过对三个典型的行业领域，【教育行业：作业帮云原生降本增效实践之路、游戏行业：游戏平台上云是花钱还是省钱、电商行业：京东云原生大规模实践之路】，列举出了各行业为什么要降本增效，降本增效的痛点在哪里，难点在哪里，关键点在哪里，并逐一对各行的现状进行分析，通过对技术进行研究，通过降本增效后，成本都大幅度减少，完美的拥抱了云原生。

4、Eunomia 云原生资源编排优化：应用资源使用设置不合理、同类 Pod 各项资源有差异、多维度空闲资源碎片化严重等这些问题，都造成云上资源浪费，面对资源使用的痛点、难点。Eunomia能够更好的对资源进行编排优化，可以在成本及稳定性等多个方面实现较大提升。

三、总结

云原生是一种新兴的软件开发利用云计算原理进行开发、部署和管理的方法。它可以提高开发效率、降低部署成本、并能够更好的支持持续集成和持续交付等开发流程。通过云原生的方式，我们可以更加灵活和高效地进行软件开发和部署，从而提高我们的效率和竞争力。

降本增效是云原生的好处之一，因为它可以通过云原生的方式，将企业的IT基础设施成本、软件开发成本和运维成本均降低。云原生技术可以将企业的应用程序与微服务打包到容器中，这样就可以更快地进行部署和更新，从而降低了开发、测试和部署的时间和成本。同时，云原生的自动化部署和弹性扩展能力，还可以让企业快速适应市场变化和应对业务增长，从而提高了生产力和竞争力。

总之，云原生是一种非常有前途的技术，它可以帮助我们更好地应对当前和未来的IT挑战，提高我们的效率和创新能力。

【云原生~降本增效】时代到来

一、活动由来：

二、电子书简介

三、总结

猜你喜欢