企业大数据湖总体规划及大数据湖 一体化运营管理建设方案

背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放

3d0ea4734423f9253d3e5b07a949a08a.jpeg

更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。
随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。

数据服务:以更加深度的数据开放,跨行业大数据关联。以更多样的应用能力,构建针对性行业解决方案。

数据应用:智能应用,基于AI与机器学习分析,个性化服务提供。应用快速构建,基于数据湖进行细粒度的收集、探索和分析

数据分析:从深度学习到机器学习,从机器学习到人工智能。基于数据湖的大量的原始数据,深度训练,快速分析

数据治理:入湖即治理,针对性对数据源系统输入数据制定入湖标准数据驱动治理规范,以数据为核心实时制定治理规范。

数据平台:数据平台存储方式向数据湖模式转变,多数据汇聚。支持结构化,半结构化和非结构化数据多数据入湖

数据湖的定义与特性

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。

69ce82f844c43b8e0e2488a2f60a75c1.jpeg

从对比中理解数据湖概念 — 优势篇

67c2fb34342824ac2a7266eb8b58c030.jpeg

从对比中理解数据湖概念 — 劣势篇

90ae3b1439dcd375a41dd0ba066a6bc5.jpeg

数据湖是大数据概念的延伸

“数据湖”是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案
“数据湖”不仅是数据存储和处理的单元,也是释放数据价值的过程
企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的“数据湖”,帮助企业加速提取高价值数据的速度
数据湖是大数据发展方向上的高级阶段,是一种建设理念,而不是一种特定的实施方法“数据湖”是个架构概念,是数据仓库的一种演进,是一种大数据概念下的延伸

f516786af10d24928406a393769e0711.jpeg

数据湖体系的架构规划

数据湖的逻辑架构

持久层(Persitent Layer):存放所有从内部和外部获取的结构化、半结构化和非结构化数据。
分析沙箱(Analytics Sandbox):数据科学家和分析师被授予持久层的访问权限并使用进行数据研究和实验。
探索数据源(Curated):数据分析师会将有商业价值的数据进行处理并创建新的数据源以提供给业务分析师。
可操作层(Operational layer):业务分析师继续精炼已处理过的数据,和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,存放之以便得到更广泛的使用。

9bccdb21848797d3b7ba2bdce6452a3b.jpeg

大数据湖体系规划

39bdf8dcdef3eb0343005efcd8c00e31.jpeg

大数据湖存储能力规划——统一标准/分区存储

存储分区原则:
生产数据区:遵循电信集团数据建模标准及主数据规范要求;规范层面属于大数据湖范畴,物理资源层面可采用湖资源也可自建;
原生数据区:分域分类存储生产数据;将非标准数据做标准化转化;
整合数据区:采用大数据挖掘等技术进行实体归集补全;构建实体关联视图;
主数据区:存储企业级全网主数据,大数据主数据唯一提供者;
应用专区:本着数据不出湖,充分挖掘数据价值原则,为使用者提供基于自有、原生、整合数据的处理空间,面向应用开展数据处理工作;

02e83f5148749cbb0b8acccf41a84a78.jpeg

大数据湖原生数据区规划——原生入湖/分类存储/按需使用

以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。

dd30a520c20596c4ccd516d7f0d37140.jpeg

大数据湖整合数据区规划——构建企业级核心实体关联视图

整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。

2b5e949bdaf74c6122a9a2cca39342fb.jpeg

大数据湖应用数据专区规划——面向应用的自建自维数据专区

独立性:保证资源独立性、数据独立性、应用独立性;
可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;
易用性:提供丰富的可视化开发及专区运营工具;
可管理性:大数据湖对专区具备监控、审计能力;
数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;

3054f3afa9e8c5dfcfb454a8a0f00fdd.jpeg

大数据湖主数据区规划 —— 企业级核心/统一运营保障

主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。

统一主数据标准:面向全国各域各生产系统提供主数据标准;
统一主数据存储:面向大数据湖提供统一主数据存储能力;
统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;
统一主数据服务:为大数据湖中各区提供主数据服务;

2a5ac92c3f9db3f050dc25dd1109d597.jpeg

生态圈自然人实体归集与对齐

客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:
1)通过规则匹配识别技术,高效地完成准确性较高的资料信息自然人识别;
2)基于大数据技术构建自然人识别模式,作为规则识别的有效补充,提高自然人识别成功率,减少人工核查确认工作量。

85c4be05735008139b9998e4ec66bb6c.jpeg

生态圈数据接入与存储

通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。
生态圈入湖
根据生态圈系统的建设情况,科学规划多种采集方式入湖
生态圈数据规范
围绕大数据湖功能分区,探索各类数据的存储要求和能力建设
生态应用服务
针对生态业务应用需求,确定大数据湖的应用支撑模式,构建专区建设规范

dc74b0f73f8ca85f1f17087b9c13bab8.jpeg

大数据湖统一访问共享建设规划 —— 统一目录/透明访问

访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问

772c7d0556c34d61afb56d537ddfebb5.jpeg

猜你喜欢

转载自blog.csdn.net/zuoan1993/article/details/130085790