一文理解主数据和参考数据

如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一小节将会解答如下疑惑:

1、什么是主数据?
2、主数据是干嘛用的?
3、什么又是参考数据?
4、参考数据又是干嘛用的?
5、主数据和参考数据又有什么关系?

主数据定义

从百度百科上的定义来看主数据指的是系统间共享数据,又称基准数据,描述了组织业务中涉及到的人员、地点、事物(也就是我们常说的人货场),比如说像企业中的客户、员工、供应商相关数据、地点数据(位置、销售区域)、事物(账户、产品、资产)等都是主数据,因为这些数据往往会被多个业务流程和 IT 系统使用,而且主数据可以用来分析和推动业务流程以此来提高运营效率。

这么一讲感觉什么都懂了,但又感觉什么都没懂。
图片
那我们从字面意思上可以理解成主要的数据,什么是主要的数据呢?在整个企业业务流程中起到关键作用,而且是比较常用的数据,在核心业务流程上产生的数据都是主数据,这么一解释可以发现主数据是可以检测企业发展是否健康的一种方式,但这么理解是有些偏差的。稍微严谨一点的定义就是主数据是整个企业中使用的核心、非交易性数据。请注意:这里指的是非交易性数据。举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据,也就是说参与到核心流程中的主体数据都是主数据,这些实体为业务交易和分析提供了上下文信息,到这里不知道你有没有稍微理解了主数据的概念呢?

当然通过该例子,有些读者可能会有疑惑,那订单交易记录又算什么呢?这里其实又扩展出来了另外一种数据类型:交易数据,也就是这些实体数据结合在一起产生了事件活动记录,那么这个记录就属于交易数据。例如通话记录、销售记录等等事件。这样看起来好像主数据是嵌入到了交易数据中了,但是主数据相对交易数据来说的话,属性是相对稳定的,而且可信度要求高,需要做到唯一识别图片既然扯到了交易数据,那么这里再和另外一个名词做下对比:元数据,关于元数据的定义概念可以看万字介绍25种元数据管理解决方案(含视频,建议收藏)。在通信院发布的《主数据管理实践白皮书》中提到的了元数据和主数据的区别,小编觉得很形象,该书中提到了“元数据类似于表格的表头信息,是一个相对的概念;而主数据是从元数据中挑选出来的,代表的是企业业务运行的关键、通用性数据,是一个相对主观的概念,主数据不仅仅只是表头信息,而且还包括了实例数据

图片那这里又扯到了元数据,大家可能又会和数据仓库关联起来,主数据其实和数据仓库是有些相似点的,但也不能把主数据完全等同于数据仓库。首先主数据和数据仓库都有一个共同点就是集成,因为主数据是跨业务、跨系统、跨部门的共享数据,那么就需要把各个业务系统共享的数据进行集中式管理,这样一来就减少了数据冗余,不一致的问题;那数据仓库也是针对数据进行了集成,把所有的数据都放到一个“仓库”中,供企业中所有人进行查阅(当然还是要考虑数据安全的)。这么一梳理,其实就应该发现两者之间的不同了,数据仓库是面向所有数据,也就是来者不拒,统统都收;但主数据并不是所有的数据都集成,而是那些核心的、有高度价值密度的数据才会进行集中管理。
图片

这里还有一个数据流向和时效的区别点:对于数据仓库一般是单向的,也就是数据从业务系统入仓之后经过ETL处理后出仓用于决策分析;而主数据来源于业务系统,同时也会流回业务系统,属于双向的流转;而且数仓中的数据发生了变化,一般是T+1后才会感知到。而主数据的变化需要实时的作用于业务系统,比如客户的地址或者联系方式发生了变化,那么就必须立即同步到业务系统,否则可能会使用历史数据,影响业务服务体验。图片

主数据作用与特点

图片从开头的定义就可以了解其第一个特点:共享;主数据是跨系统、跨部门共享的数据。那么既然是共享的数据,那么就可以解决系统之间数据不一致的问题,比如说一个用户可能在多个系统之间有不同的地方信息(比如搬家了),如果各个系统使用各自的地址信息,最后肯定是会出问题的。如果各个系统统一使用最新的地址,就不需要考虑该问题了,这样在协作流程上也有所提升(其实这里需要涉及到主数据管理MDM的范畴来保证主数据的标准统一规范)。同时由于数据是共享的,对于企业来说价值是很高的了,既然是价值高的数据,命名为主数据也不为过。图片从上面一句话我们可以精简一下得到两个词:共享、价值;既然这类数据是被共享的,而且是价值比较高的,那么就要保证数据质量,而且不能经常改变了(哎呦,这跟缓慢变化维有点相似),如果各个系统共享该部分数据,质量不能保障的话,整个企业发展就很危险了,而且变化很频繁的话,就加大各个系统的维护成本,而且风险性也会提高,可谓是牵一发动全身呀。图片

参考数据定义

DAMA数据管理知识体系指南一书中对参考数据的定义是指“可用于描述或分类其他数据,或者将数据与组织外部的信息 联系起来的任何数据”。这个定义可以说是比较抽象,简单来说就是维度数据,大家平时理解的数据字典,该类型的数据的主要作用是用来增强对数据的可读性和解释性,比如状态编码、性别、产品维表、地理信息等维度数据。由此可见,参数数据的来源可能是内部产生或者外部手动采集获取到的(比如国际标准编码、行业标准)

特点

参考数据的特点同维度表的特点,有慢维,也有快维。

参考数据和主数据的区别

主数据和参考数据一般来说就是两种不同类型的数据。
1、从定义上来看主数据是代表业务对象的数据,由关键业务实体组成,它包含了整个组织共享的最有价值的信息;而参考数据是定义其他数据字段使用的一组允许的值的数据,包含了附加的文本描述,更多的像是数据字典;
2、从范围上来看参考数据是主数据的一种特殊子集。
下面的表格汇总了主数据和参考数据的区别:图片

参考资料:

  1. 中国通信院发布的《主数据管理实践白皮书1.0》

  2. DAMA数据管理知识体系指南

猜你喜欢

转载自blog.csdn.net/qq_28680977/article/details/121940112