释放计算弹性，阿里云做了很多！

时至今日，已经没有人怀疑云计算是最主流的企业IT基础设施之一。围绕云计算最基础最核心的话题计算力，探讨在新硬件、新技术和新场景带来的机遇和挑战下，计算产品如何演进，使其价格更加低廉、供给更有保障、稳定性更好等，真正成为一种新的基础社会资源。其中值得提及最多的就是神龙计算平台，支撑了阿里巴巴经济体上云和外部大客户的全站上云，是阿里云IaaS层的核心创新产品。

在2019年杭州云栖大会上，阿里云正式发布了第三代自研神龙架构。据悉第三代神龙架构支持ECS虚拟机、裸金属、云原生容器等，贯穿整个IaaS计算平台并在IOPS、PPS等方面提升5倍性能，用户能在云上获得物理机100%的计算能力。

2017年，一代神龙架构震撼现世，主要采用了自主研发的虚拟化2.0技术，兼具“虚拟机的心脏”和“物理机的肌肉”，被认为是云计算领域的新物种。如果仔细梳理神龙架构，我们发现很大程度上绕不开虚拟化技术的发展，甚至神龙可以被定义为是虚拟化技术的一个延伸。无论是从1974年第三代虚拟化架构的新时代要求，还是VMware公司成立等，真正把虚拟化带入应用阶段仅仅才刚开始，以前更多较倾向于理论研究。

对此阿里巴巴研究员，阿里云智能创新产品线总负责人旭卿提及，2009年阿里云开始着手弹性计算，最早使用了开源的Xen；但经过几年的发展，就在2016年，众多从事基础IT的阿里人不禁反思：在云数据中心时代，究竟怎样的虚拟化技术可以满足日益增长的需求，毕竟几十年的虚拟化技术发展以来，但底层架构几乎未变。是不是可以做一些软硬融合或者软件硬件协同的创新来提高虚拟化的效率？毕竟传统物理机缺陷日渐凸显。

通常情况下，一台物理机中包含宿主机以及虚拟机，出现最多的情况就是资源“争抢”，这就会导致虚拟化效率的降低甚至频繁出现波动性。此外，云计算要配合虚拟化自然要消耗大量资源；想要做到效率高、性能佳，除了消耗大量的CPU资源之外似乎并没有更好的办法，相比之下成本激增就是个问题。所以在更高的计算性能、更快的网络接入，更高的存储读写能力的综合要求下，神龙就这样应运而生了。“我们重新定义服务器的架构，让它更好地服务今天的虚拟化技术，计算效率大幅度提升。”

可以清晰地看到，发布以后2018年初神龙一代就实现全面商业化，在大规模在云上部署来主要满足大客户上云的需求。一代神龙之后，阿里方面发现，如果传统的虚拟化生产虚拟机和现在使用不一样的计算架构，就会带来两个资源池，成本大幅度上升。如何做到一套架构既可以支持裸金属服务，又可以支持传统的虚拟机，提供更高的服务质量，更好地支持容器，还能很好地兼顾成本、技术发展？在此背景下，真正让虚拟机在神龙架构下性能飞起来，FPGA毫秒级热升从中带来很大帮助，完成技术融合与资源并池，成为神龙二代的主要着力点。

如今神龙三代已大成推出，主要集中在系统内部的优化部署，可以简单概括为芯片的硬化功能。有数据显示神龙架构和非神龙架构的业务吞吐会高30%，并且延迟保守不动，低负载和高负载完全一样；同时CPU利用率也会大幅度下降，通俗来说原来需要一万台服务器完成的任务，现在只需几千台就可以，这就是神龙架构带来的最直观优势。

目前神龙架构已经统一整体阿里云的计算资源产品，无论是ECS还是容器以及裸金属服务器等，整个平台所有的技术红利都因此被享受到。“接下来，阿里云遍布全球的百万服务器将全面升级至第三代神龙架构。” 小邪透露，在阿里巴巴内部，神龙架构已大规模应用于淘宝、天猫、菜鸟等业务，解决高峰值的性能瓶颈问题。

如今上云已不再是问题，不仅仅存在于外围系统，而是核心系统全栈上云，不断变化的是用户对计算的需求，首先就是最基础的弹性计算。例如更大的宽带、更小的延迟、绝对安全稳定、隐私的存储环境等。

毋庸置疑，神龙架构将云计算的弹性得到最大强度释放，谈及阿里云针对弹性计算的实践，阿里云资深技术专家郑旭东表示，首先从阿里云弹性计算产品来说确实提供了非常卓越的稳定性。

据了解，阿里云提供单实例的SLA稳定性已经保证了99.975%，多实例稳定性则高达99.995%。这个数字代表什么含义？通常的服务器厂商、IDC厂商或者服务商，都不会轻易将SLA写到供货合同中。“我们公开SLA指标意味着线上的稳定性远高于SLA，目前ECS稳定性是线下IDC的稳定性的十倍之多。”

通常情况下提升稳定性除了非常巨大的资金和技术投入之外，回到服务的高可用和容灾这方面，达到业务的稳定性还需要扩大资源。例如，如果在一个机房内部运作高可用架构，资金投入量会随着资源使用量呈现线性增长的关系，其支出是条约的方式；除此之外在资源成本外还有很大一部分是研发成本和运维成本，但随着资源增多，其运维成本也呈现逐渐增长的过程。我们可以看到，在资源本身压力以及研发成本压力的作用下的，大多数中小型公司都知道要做各种各样的容灾以及高可用举措，但现实表现并不是特别理想。

在此背景下，阿里的ECS调度平台则能把底层OS和硬件缺陷规避很多，可以在X86平台服务器上提供远高于业界平均水平的技术服务，保障接近小型机的稳定性；试想一下如果有能力提供这样的稳定性，毋庸置疑弹性计算上大多数用户就都可以零成本且100%覆盖使用高可用服务。

具体来说为了达成该目标，郑旭东认为首先要有强健的基础设施，例如ECS服务器。据悉从研发设计到真正交付线上之前，至少有四轮非常严格标准的验证，保证线上所有服务器在整个业内是有保障的。“此外最重要的还是线上数据的回环，因为线上的监控数据和线下的压测平台是实时打通的，如果线上发现任何硬件异常或者隐患，我们会直接追踪并解决，这样就保证了大部分异常隐患都能在第一时间发现拦截并有效。”

据晶少了解，在异常隐患方面，阿里云弹性计算做了很多技术尝试来精准拦截故障，尽管在理论上依旧无法做到全部，但在预知与解决上收效甚广，这是整体系统稳定性所必需的具备的。举个例子，阿里弹性计算每一台物理机如果出现非预期的故障宕机后，5分钟之内80%的情况下能直接给出哪个代码、哪个部件出现问题而导致机器宕机的解决方案。其实故障预测非常复杂，很难用通路的算法得出结论。不同的场景会用不同的模型做不同的调度，最终得出合理的算法模型。强大的数据、算法知识以及团队合作等都很关键。

除了稳定性外，在可靠性上有数据显示，早在2012年阿里云第一代云主机的PPS是20-30万每秒，绝大多数的性能损耗主要来自虚拟化过程，必须通过物理机连接网络，这样的速度基本没有办法支持峰值情况的速度提升；转眼到了2015年，通过硬件和软件的技术革新，阿里云将万兆网卡上的 PPS 从30万每秒提高到了120万每秒；待到2017年，阿里云通过用户态直通虚拟机，为每一次信息传输节省大量的时间，完成了原本无法想象的“450万每秒”。

如今随着深度学习算法的突破，人工智能技术得到了更迅猛的发展，以异构计算为代表的新加速计算单元不断催生大量计算类需求，在此发展趋势的作用下，阿里云正在不断增加新的实例，未来将会利用人工智能等先进技术在稳定性与安全性上持续深耕，并利用最新一代的网络技术保证产品性价比与性能稳定。

一直以来阿里云都将精力和时间放在最朴素的需求满足上，例如网络以及虚拟化技术的提升等，追求成本与功能的最高性价比，未来阿里云弹性计算技术创新以及产品研发风向如何？我们只需拭目以待。

L-JingJing 博客专家

发布了251 篇原创文章 · 获赞 761 · 访问量 26万+

他的留言板关注

释放计算弹性，阿里云做了很多！

猜你喜欢