华为计算战略再出新措,全面启动数据基础设施战略

不鸣则已一鸣惊人,这就是华为。

 

还记得两个月前华为在全联接大会上的一系列操作吗?发布全新计算战略,开放鲲鹏主板接口规范和设备管理规范、开源服务器操作系统、开源GaussDB OLTP单机版数据库……那时我就说很快华为还会有更多后续动作。今天,它来了。

 

11月19日,华为在深圳召开2019全球数据基础设施论坛。会上,华为重磅宣布全面启动数据基础设施战略,并开源数据虚拟化引擎HetuEngine (河图引擎)。

640?wx_fmt=jpeg

继计算战略之后,又宣布数据基础设施战略,华为是何用意?数据基础设施战略什么内涵,和计算战略又是什么关系?数据虚拟化引擎能给用户带去什么?

 

01
计算的主体是数据

数据将成为未来世界的关键生产资料,这一点相信已经没有人再怀疑。

 

打开快手,会收到你感兴趣的内容推送,背后就是数据在驱动;大港油田发现新的油气层,离不开大数据和AI技术的支撑;华为每年近300万人次出差能做到“说走就走”,免去申请、报销等复杂的流程,是因为通过数据更有效、更合理的方式流转代替了员工的跑腿。

 

然而一个不得不承认的现实是,像这样被利用起来的数据太少了,一方面是数据生产的速度太快,另一方面则是因为存储、计算资源是有限的。

 

不信?举几个例子,从1080P提升到4K、8K,视频数据量将提升40倍,从4K到4k VR要增加6倍以上;未来每辆自动驾驶汽车每天就会产生高达64TB的数据;深圳一个城市有超过200万摄像头,每天将生产80PB数据,平均保存30天,而且大家希望保存的时间还要更长。

640?wx_fmt=jpeg

 

华为GIV 2025预测,全球数据量将从2018年的33ZB快速增长到2025年的180ZB。这其中,产生的数据中仅有不到2%被保存,而被保存的数据中仅有不到10%被应用。

 

数据增长和存储资源、计算资源有限之间的矛盾可以说愈演愈烈。解决这一问题唯一的办法就是在存储、计算等基础设施上下功夫。

 

于是,华为宣布了数据基础设施战略。未来,华为将围绕数据“采-存-算-管-用”的全生命周期,通过提供融合、智能、开放的数据基础设施,使能各行各业客户释放数据价值,让智能无所不及。

 

02
换个角度理解计算战略

该如何理解数据基础设施战略?其实早在华为发布计算战略时,对于数据部分就已经有相应的描述,即在智能数据与存储领域,通过融合存储、大数据、数据库、AI等技术,围绕数据的全生命周期,让数据的每比特成本最优、让数据的每比特价值最大。

640?wx_fmt=jpeg

 

对比两次表述来看,异曲同工。因此在我看来,数据基础设施战略并不是又一个全新的概念,而是华为整体计算战略的一部分,华为在以一个更具象、更小的切口来落地计算战略,毕竟计算战略非常宏大。有了数据这个抓手,能更好的发挥华为整体计算战略的能力。

 

事实也确实如此,如华为Cloud & AI产品与服务总裁侯金龙在演讲中所说,数据基础设施战略是从数据角度对计算战略的再度思考。

 

当然,除了战略目标,此次华为带来的还有实践理念和落地工具。其中最核心的是依托鲲鹏计算产业,打造“融合、智能、开放”的数据基础设施,让数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放。这也是此次大会取名全球数据基础设施论坛的出发点。

 

融合,顾名思义打破孤立,主要针对基础设施层。数据应用主要涉及两个部分:存储与分析。传统烟囱式IT业务系统面临两个挑战:存的时候数据孤立,且多副本,成本高利用难;分析的时候需要大量数据搬迁,效率低。融合就是要打破这其中的墙。

 

总结起来,有4堵墙:

 

一、存储内部系统墙:通过一套架构实现生产、分析、备份、归档统一管理,一份数据在各个系统中可以平滑流动,进而减少拷贝,TCO可降低30%以上。

 

二、数据库与存储链路墙通过算子下推实现近数据计算,减少存储层与计算层之间的数据交换,数据访问和处理性能提升2倍。

 

三、大数据与存储配置墙通过存算分离实现资源灵活配置,计算不足扩计算,存储不足扩存储,并通过弹性EC、数据缩减技术减少冗余,整体TCO降低30%以上。

 

四、数据库与大数据协同墙通过协同分析实现数据0搬迁,数据库和大数据共享一份数据,分析效率提升100%。

 

智能,主要解决运维难题。架构正变得越来越复杂,靠人越来越捉襟见肘,即便是经验丰富的老工程师也越来越感觉吃力,这是人工智能被广泛提及的基础。华为基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,能够让系统越用越快、越用越省。

 

具体体现在三个方面:

 

  • 依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%。

  • 依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO降低25%。

  • 结合华为云自身大规模运维运营经验,当前可以实现提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复。

 

开放,解决数据应用难题。业务类型日益增多,跨平台、跨数据源协同分析场景增多,找数难、取数难、用数难日益突出。比如

 

找数难:传统企业数据类型越来越多,结构化、半结构化、非结构化数据并存,缺少统一数据目录和全局数据视图,要在众多异构数据源中找到特定数据,就像大海捞针。

 

取数难:一个典型的分析业务通常依赖跨地域跨平台数据协同,需要从多个业务系统获取数据,这要经过多部门间协调、核实才能获取。

                       

用数难:多业务分析需要多引擎协同,这将依赖多种数据访问技术,需要开发人员掌握多种开发工具和语言,这导致开发门槛变高,开发周期变长。为了屏蔽数据类型差异、地域差异、语法差异,让数据治理更简单,华为推出了“河图引擎”。

640?wx_fmt=jpeg

融合、智能、开放,基础设施、运维、数据,数据应用基础设施的方方面面,华为此次都给出了自己的观察,并提供了相应的解决方案。

 

03
河图治水,河图引擎治数

这里重点讲讲河图引擎(HetuEngine)。“大禹得河图后始见清明”,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。华为取名河图就是想数据治理简单,使用简单,让开发者像使用数据库一样使用大数据,复用现有的生态、工具和技能,进而提升开发效率。

 

众所周知,数据库已经是非常成熟的产品,标准化语言,目录清晰、接口统一,使用便捷。这也是河图致力实现的目标。

 

目前,河图引擎具备4个核心能力:

 

一个目录:通过元数据在线感知,构建超过1000个异地异构数据源全局虚拟数据视图,打破数据孤岛。数据全局可视,解决企业找数难问题。

                       

一个入口:通过开放的连接框架、5000节点SQL引擎,实现30种异地异构数据源统一SQL访问,秒级获取。数据全局可得,解决企业取数难问题。

 

一份数据通过CarbonData技术,实现一份数据多场景分析,多应用共享,数据0搬迁。数据全局可用,解决企业用数难问题。

                       

统一安全:对于用户最重视的数据安全性问题,河图引擎通过细粒度动态授权、敏感数据自动感知技术,能够实现异地异构数据源集中式安全配置与管控。数据全局可控,数据授权时间从天到秒,解决企业数据安全与合规问题。

 

据悉,开源版本的河图引擎叫OpenHetu,并将于2020年6月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。总的目标,让合作伙伴用得好,用的放心。

 

回过头再看华为计算战略,毫无疑问,其正在快速、稳步的推进。还是之前的判断,这还只是华为计算战略的开始,未来还会有更多后续。但值得强调的是,相比之前,华为这次找到了一个更好的切入点,它就是数据。所以,接下来华为计算战略的落地进程肯定会走的更实、更快,拭目以待。

640?wx_fmt=jpeg

发布了49 篇原创文章 · 获赞 113 · 访问量 40万+

猜你喜欢

转载自blog.csdn.net/ZPWhPdjl/article/details/103154015