数据中台学习摘录-数据中台建设

1 数据中台建设

1.1 数据只处理一次

在未做数据中台之前,每个部门都会有一些小的数仓去完成本部的数据分析任务。而数据中台就是要在整个业务形成一个公共数据层,消灭这些跨部门的小数仓,实现数据复用,强调的是数据只加工一次。

那么要实现数据只加工一次,需要做五个方面的工作:

  1. 分主题域管理
  2. 命名规范定义
  3. 指标一致
  4. 数据模型复用
  5. 数据完善

1.2 数据即服务

数据中台的数据用该是通过API接口的方式被访问。
这么做有什么好处呢?
当一个数据应用开发一个数据产品时,首先要把数据导出到不同的查询引擎上:

  • 数据量小的使用Mysql
  • 大的可能用到Hbase
  • 需要多维分析的可能用到Greenplum
  • 实时性要求高的需要用到Redis

可以看到,不同的查询引擎,应用开发需要定制不用的访问接口。同时还有一个问题,如果当某个任务无法按时产出,发生异常时,想要了解这个表可能会影响到下游的哪些应用或者报表,但是却发现单纯依赖表与表的血缘无法触及应用,根本无法知道最后的这些表被哪些应用访问。

此时,使用API接口的话,一方面对应用开发屏蔽数据存储,使用统一标准的API接口查询数据,提高了数据接入速度。另一方面,对于数据开发,提高了数据应用额管理效率,建立了表到应用的链路关系。
那么要实现数据服务化,需要做4个方面的工作:

  1. 屏蔽异构数据源
    数据服务必须要能够支撑类型丰富的查询引擎,满足不同场景下数据的查询需求

  2. 数据网关
    要实现包括权限、监控、流控、日志在内的一系列管控能力,哪个应用的哪个页面访问了哪个模型,要做到实时跟踪,如果有一些模型长时间没有被访问,应该予以下线。

  3. 逻辑模型
    逻辑模型可以类比视图,它可以帮助应用开发者屏蔽底层的数据物理实现,实现相同粒度的数据构造一个逻辑模型,简化了数据接入的复杂度。

  4. 性能和稳定性
    由于数据服务侵入到用户的访问链路,所以对服务的可用性和性能都有很高的要求,数据服务必须是无状态的,可以做到横向扩展。

1.3 数据中台方法论总结

  • 适合数据中台的组织架构是建设数据中台的第一步,数据中台组织一定是独立的部门,同时要避免与业务脱节,深入业务,要与业务目标绑定。
  • 数据中台支撑技术大规模落地,需要有成熟的系统工具作为支撑,同时要注意这些系统工具之间的联动和打通。
  • 数据中台的方法论可以借鉴,但是不能完全照搬,每个公司的数据应用水平和当前遇到的问题都不相同,可以针对这些问题,分阶段制定数据中台的建设计划,选择性的应用一些技术,例如当前最主要的问题是数据质量问题,那就应该优先落地数据质量中心,提升质量

图4

猜你喜欢

转载自blog.csdn.net/weixin_42526352/article/details/106858759
今日推荐