企业级数据中台构建方法和指导

1. 数据中台的概念

数据中台是指通过数据技术对海量数据进行采集、计算、存储和处理,同时统一标准和口径,形成全域级、可复用的数据资产中心和数据存储能力中心,形成大数据资产层,进而为客户提供高效的服务

数据中台构建的服务考虑了"可复用性",每项服务都像一个积木,可以随意组合,灵活高效地解决前台的个性化需求

数据中台的核心理念是"数据取之于业务,用之于业务",数据中台着眼于业务的积累和沉淀,构建了从数据生产到消费、消费后数据返回到生产的闭环过程

如下是阿里的“大中台,小前台”的战略图

大中台,小前台
其中大中台,包括业务中台和数据中台

业务中台和数据中台

2. 数据中台适合企业

2.1 企业构建数据中台面临的问题

主要有五点:

  1. 指标口径不一致:业务口径不一致、计算逻辑不一致、数据来源不一致。要实现一致,就务必确保对同一个指标,只有一个业务口径,只加工一次,数据来源必须相同

  2. 数据重复建设,需求响应时间长:解决数据复用的问题,要确保相同数据只加工一次,实现数据的共享

  3. 取数效率低:面对几千甚至上万张表,快速找到想要的数据很难。所以需要构建一个全局的企业数据资产目录,实现数据地图的功能

  4. 数据质量差:没有数据稽核任务。存储数据链路,及时发现数据质量问题,并恢复数据

  5. 数据成本线性增长:大企业烟囱式开发,导致一个企业拥有很多小数仓。所以解决方案的核心:解决数据重复建设,打通数据孤岛

2.2 企业构建数据中台解决问题的方法

构筑一个统一的平台,提供统一的出入口:OneData、OneService

  • 由一个团队,负责所有指标的管控,明确每个指标的业务口径,数据来源和计算逻辑。确保唯一性

  • 数据服务化,提高数据应用接入和管理的效率

  • 对于非技术人员,数据中台提供可视化的取数平台。你只需要选取指标、通过获取指标系统中每个指标的可分析维度,然后勾选,添加筛选过滤条件,点击查询,就可以获取数据。这个需要公司自己研发

  • 构建了企业数据地图,你可以很方便地检索有哪些数据,它们在哪些表中,又关联了哪些指标和维度

  • 数据只能加工一次,强调数据的复用性

  • 成本控制,研发了一个数据成本治理系统,从应用维度、表维度、任务的维度、文件的维度进行全面的治理。对于长时间未使用的指标,可以考虑清除。这个需要公司自己做埋点,自己研发

2.3 什么样的企业适合构建数据中台

既要维护之前的数据平台,又要构建新的数据平台,需要大量的人力和时间。而且构建出来的数据中台,还需要根据最终的业务应用进行不断的调整

企业在选择数据中台的时候,应该考虑这样几个因素,不要盲目搞数据中台

  • 企业是否有大量的数据应用场景: 数据中台本身并不能直接产生业务价值,数据中台的本质是支撑快速地孵化数据应用。所以当你的企业有较多数据应用的场景时(一般要 3 个以上)

  • 经过了快速的信息化建设,企业存在较多的业务数据的孤岛,需要整合各个业务系统的数据,进行关联的分析

  • 当你的团队正在面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提高效能,数据经常出问题而束手无策

  • 当你所在的企业面临经营困难,需要通过数据实现精益运营,提高企业的运营效率的时候

  • 企业规模也是必须要考虑的一个因素,数据中台需要投入大量人力和时间,收益偏长线,所以更适合业务相对稳定的大公司,并不适合初创型的小公司

3. 如何建设数据中台

3.1 方法论

3.1.1 OneData

所有数据只加工一次

数据中台就是要在整个企业中形成一个公共数据层,消灭这些跨部门的小数仓,实现数据的复用,所以强调数据只加工一次,不会因为不同的应用场景,不同的部门数据重复加工

如何实现:

  • 数据划分主题进行管理

  • 数据格式和字段命名和定义规范化:数仓分层-业务主题域-业务过程-基础信息-分区规则

  • 指标一致,不存在二义性:提供全局数据字典确保意义一致

  • 数据模型复用:推荐采用分层的设计方式,通常包括:ODS原始数据层、DWD明细数据层、DWS汇总数据层、ADS应用数据层、DIM 公共维度层

  • 数据完善:数据中台尽可能的覆盖到所有业务过程,用户和系统的一切行为都被记录下来永久保存

3.1.2 OneService

数据即服务,强调数据中台的数据应该是通过API接口的方式被访问。API接口屏蔽了底层数据存储,使用统一标准的API接口查询数据,提高了数据接入的速度

实现方法:

  • 给用户屏蔽底层的物理数据模型,提供数据逻辑模型
  • 实现包括权限、日志、监控等管控能力的数据网关:权限控制,统计分析,流量控制,成本控制等
  • 提供无状态的,高性能和稳定可靠的数据服务

3.2 技术

可以参考网易的数据中台架构

中台架构1. 大数据计算、存储基础设施
数据中台的底层是Hadoop等的大数据计算、存储基础设施

  1. 工具产品
    覆盖了从数据集成、数据开发、数据测试到任务运维的整套工具链产品。同时还包括基础的监控运维系统、权限访问控制系统和项目用户的管理系统。由于涉及多人协作,所以还有一个流程协作与通知中心

  2. 数据治理模块
    它对应的方法论就是OneData体系。以元数据中心为基础,提供了包括数据地图、数仓设计、数据质量、成本优化以及指标管理在内的5个产品

  3. 数据服务
    对外提供了统一的数据服务,对应的方法论就是OneService

  4. 数据产品和应用
    包括面向非技术人员的自助取数系统;面向数据开发、分析师的自助分析系统;面向敏捷数据分析场景的BI产品;活动直播场景下的大屏系统;以及用户画像相关的标签工厂

3.3 组织

数据中台建设职责的部门是一个独立于业务线的部门。数据中台的组织必须懂业务,和明确中台的业务目标,为最终业务服务

必须得到高层领导的支持和重视,需要:

  • 一把手牵头,全员共识
  • 总体规划,分步实施
  • 找准切入点,解决具体业务问题

综合来讲:

组织

  • 数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)

  • 数据平台部门:负责研发支撑数据中台构建的产品,例如指标系统、元数据中心、数据地图等

  • 数据开发团队:负责维护数据中台的公共数据层,满足数据产品制定的数据需求

  • 应用开发团队:负责开发数据应用产品,比如报表系统、电商中的供应链系统、高层看板、经营分析

4. 数据中台实现:指标管理

定义指标的方法

  • 面向主题:为了提高指标管理的效率,你需要按照业务线、主题域和业务过程三级目录方式管理指标

  • 拆分原子指标和派生指标:统计周期、统计粒度、业务限定、原子指标,组成派生指标

  • 命名规范:规范统一化,通俗易懂化

如何构建指标系统

  • 提供一个易于维护的规范标准化指标管理系统,具备查询,增删等功能
  • 数据中台团队必须要有一个专门负责指标管理的人或者小组(一般不超过3个人),最好是数据产品经理来负责(有的是让分析师承担)
  • 提供一个完备的指标创建流程:提交指标需求,需求评审,模型设计和数据开发,验证,上线,应用接入

5. 数据中台实现:数据质量

数据质量的问题有如下几个原因:

  • 业务系统变更,包括表结构变更,源系统环境变更,源数据格式异常
  • 数据开发Bug + 数据开发任务变更:忘了修改数据源,写死数据分区,数据格式异常
  • 物理资源不足:YARN上多租户争抢资源导致数据延迟产出等
  • 基础设施不稳定:NameNode高可用失效导致数据读写功能异常等

数据质量具体实施:

  • 添加稽核校验任务:确保数据的完整性、一致性和准确性
  • 通过智能预警,确保任务按时产出。延迟产出,异常任务等立即报警
  • 建立全链路监控:可以基于血缘关系建立全链路数据质量监控
  • 通过应用的重要性区分数据等级,加快恢复速度

衡量数据质量:

  • 某个时间点以前核心任务的产出完成比,超过规定时间,没有完成产出则稽核校验失效
  • 基于稽核规则,计算表级别的质量分数。对于低于质量分数的表,分发到响应责任人进行改进
  • 需要立即介入的报警次数。超过规定次数的需要立即介入
  • 数据应用中的所有指标在规定时间内产出。如果没有,则计算不可用时间,不可用时间越短越好

6. 数据中台实现:成本控制

成本高主要原因:

  • 数据上线容易,下线难,什么没有下线机制
  • 低价值的数据应用消耗了大量的机器资源
  • 烟囱式的开发模式导致数据加工重复
  • 数据倾斜导致资源分配利用不均衡
  • 未设置数据生命周期,导致过期数据长期占用磁盘资源
  • 调度周期设置不合理,未形成闲忙搭配得当
  • 任务指定资源参数配置不当
  • 数据为压缩存储

精细化成本管理步骤:

  1. 全局资产盘点

    1. 对数据中台中,所有的数据进行一次全面盘点,基于元数据中心
      提供的数据血缘,建立全链路的数据资产视图
    2. 数据成本计算:一张表的成本 = 每个加工任务的计算资源成本 * m + 上游依赖表的存储资源成本 * n
    3. 数据价值计算:给使用人数、使用频率、数据应用数、老板等因素加权计算
  2. 发现问题

    1. 持续产生成本,但是已经没有使用的末端数据
    2. 数据应用价值很低,成本却很高
    3. 高峰期高消耗的数据:高成本的数据
  3. 治理优化

    1. 对于第一类问题,应该对表进行下线
    2. 对于第二类问题,我们需要按照应用粒度评估应用是否还有存在的必要,如果没有,则删除
    3. 对于第三类问题,主要是针对高消耗的数据,又具体分为产出数据的任务高消耗和数据存储高消耗,分配到非高峰期运行即可
  4. 第四:治理效果评估

    1. 下线了多少任务和数据;这些任务每日消耗了多少资源;数据占用了多少存储空间。
    2. 将上述节省资源换算成钱,这就是你为公司省的钱

7. 数据中台实现:数据服务化

为所有的数据应用提供统一的API接口服务:

  • 接口规范化定义
  • 数据网关
  • 链路关系的维护
  • 数据交付
  • 提供多样中间存储
  • 逻辑模型
  • API 接口
  • API 测试

数据服务实现了数据中台模型和数据应用的全链路打通,解决了任务异常影响分析和数据下线不知道影响哪些应用的难题。而且还有限流功能

基于相同主键的物理模型,可以构建逻辑模型,逻辑模型解决了数据复用的难题,提高了接口模型的发布效率

本文图片如有侵权,请联系删除

猜你喜欢

转载自blog.csdn.net/yy8623977/article/details/125421372