【头条】知道AI好,却不知道高效AI也能低TCO

640?wx_fmt=png&wxfrom=5&wx_lazy=1


2012年从做云计算起家,当年的云计算市场在大多数人眼里早已是红海一片,但UCloud却偏偏快速突围。改变行业里“产品和服务都离用户的需求有点远”的现状——就是凭着这样一个再简单不过的idea,让UCloud短短几年内拥有了5万多家企业客户,并完成了足以让同行艳羡的D轮融资。


也正是在云计算领域的快速收获,让UCloud清晰地看到,云计算的发展已让企业具备了获取AI的能力,最终使得人工智能浪潮的落地速度比前两波浪潮更大、更快。作为UCloud实验室的研发总监,叶理灯可谓重任在肩,因为创业型公司没有资源可抱,唯有技术和商业模式创新一条路。


在与众多AI公司接触的过程中,叶理灯明确地感受到人工智能的下半场已经开始。不仅仅是AI创业公司的风潮涌现,更重要的是传统行业对人工智能的需求是明确的。比如,在纺织行业,企业传统的作法是人工检测布匹是否合格。而现在,则可通过智能图片识别去判断产品是否合格。明显就提高了它的效率,降低了人力成本。


大量的行业走访,让UCloud认识到,人工智能只是一门技术,只有与行业结合,渗透到行业里去,这才是人工智能的价值所在,也是落地的关键。


“有一个说法是人工智能需要有三大要素:数据、算法和计算能力。用著名的火箭理论来看如果把人工智能当火箭的话,那么数据是火箭的原料,计算能力就是引擎。”叶理灯近日在接受记者的采访中这样谈到。


指令集挖潜,CPU、物理机、虚拟机物尽其用


人工智能只是技术,企业岂能说用就用?AI系统的设计、部署和运维都需要巨大、多维度的投入且困难重重。


当谈到这个问题时,记者明显感觉到了叶理灯的那份自豪和从容。应该说,通过技术创新降低成本正是UCloud的立身之本。


比如,UCloud就曾经通过开发IO加速模块,让虚拟机在普通存储介质上具备类似SSD的IO能力,一方面节省用户的成本,另一方面提供好的体验。


而在AI时代,UCloud更是没有盲目跟风。目前市场上AI专用芯片越来越多,但UCloud却盯上了数据中心内大量部署的、每台服务器都会配备的X86通用处理器。


通过技术分析,UCloud发现虚拟云主机中的处理器,处于工作状态的主要都是简单指令集,而英特尔至强处理器集成的英特尔AVX则并没有被充分利用。这意味着以浮点计算性能著称的英特尔AVX的能力,或许可以为UCloud提供更适用的解决方案。


最终,UCloud基于英特尔至强服务器平台,充分发掘和利用英特尔高级矢量扩展512指令集相关处理单元的潜能,推出了UCloud AI在线服务(UAI-Inference)。其具备的大规模分布式计算平台可以满足企业在图像识别、自然语言 处理等多个AI领域的在线服务应用的需求。


在这套UCloud针对上述AI模型部署难题而推出的创新方案中,UCloud的工程师们创造性地利用了虚拟云主机上英特尔至强可扩展处理器家族的空闲计算资源,借助英特尔AVX-512的能力,来提供专注于AI模型部署的AI在线服务。英特尔至强可扩展处理器家族强大的可扩展性也帮助UAI-Inference获得了快速便捷部署的能力,并显著降低了企业运行AI在线服务的成本支出。


“选择基于CPU来做,除了上述原因,还有一个考量就是最大化利用公司现有资源。我们公司有海量的CPU资源,都是英特尔至强处理器。相对其他芯片,它成本低,但性能高。在数据中心内、服务器中配备的无数英特尔处理器都可以被扩展到系统中,来进一步强化AI在线服务所需的浮点计算能力,这是一种远比GPU方案经济高效得多的解决方案,毕竟,这些处理器节点已经是UCloud的既有投资,无需再为此多支出一分钱。” 叶理灯如此谈到说。


别让你的AI系统前功尽弃


数据收集、模型训练、模型部署是企业建设AI系统的三个步骤。但是多种多样的AI框架需要企业制订和执行不同的部署策略,难免因此产生高昂的运营成本;另一方面,主要用于模型训练的GPU平台在模型部署中不仅部署成本较高,而且在扩展性上的表现也不够理想。因此在决策选型过程中稍有不慎,都会带来巨大的沉没成本,这令许多企业望而生畏。


如果在IT系统、AI框架上选择失误,必然会前功尽弃,这给AI项目的发展和普及制造了很高的门槛。


因此,UCloud在传统的AI框架以外,在其UAI-Inference设计上还与英特尔一起,引入了性能更佳的AI框架:面向英特尔架构优化的Caffe框架。这一版本的Caffe框架与传统AI框架相比,针对英特尔硬件平台做了深度优化,在保证兼容性的前提下,极大地提高了性能。


源自UCloud的一系列测试结果表明,借助面向英特尔架构优化的Caffe框架,测试系统同时运行的线程数量可以得到显著增加。基于该框架,测试系统的执行时间也能从最初未修改前的37秒缩短至优化后的3.6秒,整体执行性能提高了10倍以上。事实证明,通过采用 这一框架,UAI-Inference的AI在线服务效率得到了极大的跃升。


AI规模化效益的展现


“我们是一个中立的平台,下不碰数据,上不碰应用。我们的平台易用但并不简单。除了云计算的数据处理之外,还有AI训练、模型推理等功能。并且我们在这个平台上引入了诸多提供AI能力的公司,比如AI的算法公司等,辅助人工智能落地。”叶理灯强调说。


在UCloud看来,云计算本身是规模经济,国内经过海量用户考验过的平台,屈指可数,UCloud的核心能力也正在于此,而表现在AI领域亦是如此。


“正如云计算的核心就是规模、运营,加上技术创新一样。与英特尔的合作,同样可以把我们AI规模化的效益充分展现出来。”叶理灯强调说。


面对广大的开发者领域,UCloud针对目前大多数AI开发框架,如Caffe、TensorFlow、MxNet、Torch、Keras等都提供了SDK。除此之外,分布式训练随着模型越来越大,对计算能力的要求也水涨船高。而我们知道,分布式训练的技术门槛并不低,它涉及到调优,通过节点进行交互,还要有通过加节点达到线性增长的能力,而在UCloud的AI平台都可以实现,这无疑大大降低了开发者的使用门槛。


在UCloud看来,如果每一个企业用户在部署自己的AI服务时,都需要通盘考虑容灾、安全性、资源调度或者负载均衡,那么企业在人力资源和成本上的支出将是沉重不堪的。


英特尔处理器强大的可扩展性带来的力量表现在云计算平台上,处理器资源能够迅速地进行海量扩容,按UCloud目前的解决方案,即在每一个虚拟机上都部署一个AI在线服务计算节点,这意味着UCloud的AI在线服务未来可以根据用户需求得到迅速且海量的扩容能力,同时还不需要额外支付太多成本。


UCloud创造性地将其空闲的浮点计算能力投入到AI在线服务中,这是技术上的创新。而把计算做成服务化,将是UCloud在AI服务上的又一个尝试。


要想将AI在线服务真正普惠大众,不仅需要在技术上突破降低成本,还需要有便捷性和在分布式集群上部署的可行性。用叶理灯的话来说,以前云计算是部分解决了系统运维上架和机器上架的问题,它没有解决应用运维的问题。以前的应用是边管资源边管应用程序,现在将变成以应用为中心、以算法为中心的服务。


《电脑商情报》创立于1992年3月,“聚焦渠道进化,关注方案集成”是我们的宗旨。旗下CBINews.com是中国最大的企业级IT渠道垂直网站。我们致力于为您提供国内企业级IT市场的渠道新闻资讯和原创深度报道。

猜你喜欢

转载自blog.csdn.net/Tf3fC4gsZrGUQX94Oo7/article/details/79765685