华为计算战略再出新措，全面启动数据基础设施战略

不鸣则已一鸣惊人，这就是华为。

还记得两个月前华为在全联接大会上的一系列操作吗？发布全新计算战略，开放鲲鹏主板接口规范和设备管理规范、开源服务器操作系统、开源GaussDB OLTP单机版数据库……那时我就说很快华为还会有更多后续动作。今天，它来了。

11月19日，华为在深圳召开2019全球数据基础设施论坛。会上，华为重磅宣布全面启动数据基础设施战略，并开源数据虚拟化引擎HetuEngine (河图引擎)。

640?wx_fmt=jpeg

继计算战略之后，又宣布数据基础设施战略，华为是何用意？数据基础设施战略什么内涵，和计算战略又是什么关系？数据虚拟化引擎能给用户带去什么？

计算的主体是数据

数据将成为未来世界的关键生产资料，这一点相信已经没有人再怀疑。

打开快手，会收到你感兴趣的内容推送，背后就是数据在驱动；大港油田发现新的油气层，离不开大数据和AI技术的支撑；华为每年近300万人次出差能做到“说走就走”，免去申请、报销等复杂的流程，是因为通过数据更有效、更合理的方式流转代替了员工的跑腿。

然而一个不得不承认的现实是，像这样被利用起来的数据太少了，一方面是数据生产的速度太快，另一方面则是因为存储、计算资源是有限的。

不信？举几个例子，从1080P提升到4K、8K，视频数据量将提升40倍，从4K到4k VR要增加6倍以上；未来每辆自动驾驶汽车每天就会产生高达64TB的数据；深圳一个城市有超过200万摄像头，每天将生产80PB数据，平均保存30天，而且大家希望保存的时间还要更长。

640?wx_fmt=jpeg

华为GIV 2025预测，全球数据量将从2018年的33ZB快速增长到2025年的180ZB。这其中，产生的数据中仅有不到2%被保存，而被保存的数据中仅有不到10%被应用。

数据增长和存储资源、计算资源有限之间的矛盾可以说愈演愈烈。解决这一问题唯一的办法就是在存储、计算等基础设施上下功夫。

于是，华为宣布了数据基础设施战略。未来，华为将围绕数据“采-存-算-管-用”的全生命周期，通过提供融合、智能、开放的数据基础设施，使能各行各业客户释放数据价值，让智能无所不及。

换个角度理解计算战略

该如何理解数据基础设施战略？其实早在华为发布计算战略时，对于数据部分就已经有相应的描述，即在智能数据与存储领域，通过融合存储、大数据、数据库、AI等技术，围绕数据的全生命周期，让数据的每比特成本最优、让数据的每比特价值最大。

640?wx_fmt=jpeg

对比两次表述来看，异曲同工。因此在我看来，数据基础设施战略并不是又一个全新的概念，而是华为整体计算战略的一部分，华为在以一个更具象、更小的切口来落地计算战略，毕竟计算战略非常宏大。有了数据这个抓手，能更好的发挥华为整体计算战略的能力。

事实也确实如此，如华为Cloud & AI产品与服务总裁侯金龙在演讲中所说，数据基础设施战略是从数据角度对计算战略的再度思考。

当然，除了战略目标，此次华为带来的还有实践理念和落地工具。其中最核心的是依托鲲鹏计算产业，打造“融合、智能、开放”的数据基础设施，让数据系统从孤立走向融合，从复杂走向智能，从封闭走向开放。这也是此次大会取名全球数据基础设施论坛的出发点。

融合，顾名思义打破孤立，主要针对基础设施层。数据应用主要涉及两个部分：存储与分析。传统烟囱式IT业务系统面临两个挑战：存的时候数据孤立，且多副本，成本高利用难；分析的时候需要大量数据搬迁，效率低。融合就是要打破这其中的墙。

总结起来，有4堵墙：

一、存储内部系统墙：通过一套架构实现生产、分析、备份、归档统一管理，一份数据在各个系统中可以平滑流动，进而减少拷贝，TCO可降低30%以上。

二、数据库与存储链路墙：通过算子下推实现近数据计算，减少存储层与计算层之间的数据交换，数据访问和处理性能提升2倍。

三、大数据与存储配置墙：通过存算分离实现资源灵活配置，计算不足扩计算，存储不足扩存储，并通过弹性EC、数据缩减技术减少冗余，整体TCO降低30%以上。

四、数据库与大数据协同墙：通过协同分析实现数据0搬迁，数据库和大数据共享一份数据，分析效率提升100%。

智能，主要解决运维难题。架构正变得越来越复杂，靠人越来越捉襟见肘，即便是经验丰富的老工程师也越来越感觉吃力，这是人工智能被广泛提及的基础。华为基于AI芯片、存储和华为云的三层架构，通过云上训练和云下推理，能够让系统越用越快、越用越省。

具体体现在三个方面：

依托昇腾处理器的AI能力，自动学习和识别IO流，提升Cache预取命中率，系统整体性能提升20%。
依托鲲鹏处理器的多核算力，根据不同的数据类型，实时优化数据缩减算法，TCO降低25%。
结合华为云自身大规模运维运营经验，当前可以实现提前14天预测硬盘故障，提前60天预测性能瓶颈，提前365天预测容量不足，其中30%的故障可以自我修复。

开放，解决数据应用难题。业务类型日益增多，跨平台、跨数据源协同分析场景增多，找数难、取数难、用数难日益突出。比如

找数难：传统企业数据类型越来越多，结构化、半结构化、非结构化数据并存，缺少统一数据目录和全局数据视图，要在众多异构数据源中找到特定数据，就像大海捞针。

取数难：一个典型的分析业务通常依赖跨地域跨平台数据协同，需要从多个业务系统获取数据，这要经过多部门间协调、核实才能获取。

用数难：多业务分析需要多引擎协同，这将依赖多种数据访问技术，需要开发人员掌握多种开发工具和语言，这导致开发门槛变高，开发周期变长。为了屏蔽数据类型差异、地域差异、语法差异，让数据治理更简单，华为推出了“河图引擎”。

融合、智能、开放，基础设施、运维、数据，数据应用基础设施的方方面面，华为此次都给出了自己的观察，并提供了相应的解决方案。

河图治水，河图引擎治数

这里重点讲讲河图引擎（HetuEngine）。“大禹得河图后始见清明”，大禹通过河图掌握河流山川复杂的地形地貌，顺利完成治水大业。华为取名河图就是想数据治理简单，使用简单，让开发者像使用数据库一样使用大数据，复用现有的生态、工具和技能，进而提升开发效率。

众所周知，数据库已经是非常成熟的产品，标准化语言，目录清晰、接口统一，使用便捷。这也是河图致力实现的目标。

目前，河图引擎具备4个核心能力:

一个目录：通过元数据在线感知，构建超过1000个异地异构数据源全局虚拟数据视图，打破数据孤岛。数据全局可视，解决企业找数难问题。

一个入口：通过开放的连接框架、5000节点SQL引擎，实现30种异地异构数据源统一SQL访问，秒级获取。数据全局可得，解决企业取数难问题。

一份数据：通过CarbonData技术，实现一份数据多场景分析，多应用共享，数据0搬迁。数据全局可用，解决企业用数难问题。

统一安全：对于用户最重视的数据安全性问题，河图引擎通过细粒度动态授权、敏感数据自动感知技术，能够实现异地异构数据源集中式安全配置与管控。数据全局可控，数据授权时间从天到秒，解决企业数据安全与合规问题。

据悉，开源版本的河图引擎叫OpenHetu，并将于2020年6月上线。华为将开源内核，开发者可以基于开源代码进行定制，包括数据源扩展、SQL执行策略等，实现应用快速对接，提升开发效率。总的目标，让合作伙伴用得好，用的放心。

回过头再看华为计算战略，毫无疑问，其正在快速、稳步的推进。还是之前的判断，这还只是华为计算战略的开始，未来还会有更多后续。但值得强调的是，相比之前，华为这次找到了一个更好的切入点，它就是数据。所以，接下来华为计算战略的落地进程肯定会走的更实、更快，拭目以待。

640?wx_fmt=jpeg

大数网

发布了49 篇原创文章 · 获赞 113 · 访问量 40万+

私信关注

华为计算战略再出新措，全面启动数据基础设施战略

猜你喜欢