数据中台专栏(三):数据质量分析及提升

微信图片_20180625142144.png


本文作者:笑天


袋鼠云数据解决方案专家。拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔、索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作。近几年主攻大数据方向,包括数据中台建设、大数据治理、工业领域的数据应用等项目开发和实施。


正文:正文


大量的信息成倍增加,但有用的信息却非常有限。

信号是真相,噪声却使我们离真相越来越远。


——《信号与噪声:大数据时代预测的科学与艺术》

[美]纳特·西尔弗


一般情况下,企业都有多套的业务系统,一些大型企业甚至会有上百套的业务系统。这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位,大量应用系统产生的大量数据是脏数据。这些脏数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。这就是数据质量问题的由来。


一般来说数据质量问题有四个因素造成:

微信图片_20180625142110.png


从上述的四因素来说,管理因素和流程因素属于组织管理范畴,信息因素和技术因素属于技术范畴。所以,要改进数据质量问题,要从组织管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。


从方法论的角度,从组织管理上去改进质量,我们能做的是:

  • 确立组织数据质量改进目标

  • 评估组织流程

  • 制定组织流程改善计划

  • 实施改进

  • 评估改善效果


从技术上去改进数据质量,我们能做的是:

  • 数据分析

  • 数据评估

  • 数据清洗

  • 数据监控

  • 错误预警

 

当我们谈到数据质量改进的时候,我们必须要有一个数据质量评价标准,有了评价标准,我们才能知道如何评价数据的质量,才能把数据质量量化,并知道改进的方向和改进的效果。


目前业内认可的数据质量的六大标准是:


微信图片_201806251421441.png


用户可以把每个标准作为六边形的顶点,把你的数据该标准下的质量作为0-100分的点,在图的中心是0,在六边形的顶点是100分,把数据质量点连起来,围城的面积S就是用户数据质量的情况。


微信图片_201806251421442.png

 

通常在业务系统存在两大类型数据:主数据和行为数据。主数据是描述事物主体的数据比如人,商品等,行为数据围绕主数据描述的事物发生的行为数据比如交易订单数据,日志数据等。所以,数据治理的改进的核心在于主数据质量改进,只有改进了主数据质量,才能有可能把整体业务数据质量提升上去。


主数据质量治理的目标是把各个业务系统低质量的基础数据,经过质量治理,形成统一规范的主数据,然后反馈给业务系统和其他数据应用系统使用。


微信图片_201806251421443.png


  • 让数据规范起来(得到所有相关人员的认可——元数据)

  • 得到一份标准的数据(主数据)

  • 建立一套体系来维护数据(主数据管理体系——数据治理)


当然,解决这个问题不仅仅只有主数据一个方法,也可以在建设企业信息系统的时候就从全局考虑,借助业务中台建设全局共享的业务服务中心,在业务服务中心的设计中确保基础数据的统一。但当前的现实情况是,大多数企业经过多年的信息化建设,已经积累了大量的烟囱式信息系统,按照业务中台的思路,彻底推倒重建的成本巨大。所以主数据管理也是解决企业当前基础数据不统一的可行方案。


对主数据的质量进行改进,需要从以下几个方面入手:


微信图片_201806251421444.png

数据质量改进流程图


1. 了解数据现状


当前有多少数据?数据模型是什么样子?涉及到哪些业务部门和角色?有什么样的维护流程和体系?数据在哪个或者哪些系统中录入?数据如何流转?数据质量如何?共享质量如何?

...

可通过以下两种方式对当前数据现状进行调研了解:

管理流程调研:管理流程调研按照人员,组织,客商,物料,产品,资产,项目以及合同等分成多个子项目。根据企业需要,选择一些做调研。

基础数据调研:主要是调研的是当前的数据在哪里?哪个部门管?怎么管?数据量有多大?数据格式是什么?数据质量如何?

 

2. 设计数据模型


数据定义是什么?数据到底有几个模型?每个模型中有几个字段?每个字段的含义是什么?这里主要讨论基础的数据建模,即确定主数据的属性数量,名称,属性数据类型及长度等信息。

主数据定义:定义需要明确和清晰。定义关系到数据范围和数据量,关系到与其他主数据的关系。比如人员主数据是指所有与**公司签署了正式劳动合同的人员。人员主数据是从企业管理视角出发的人员实体的数字化描述。

主数据中表的颗粒度:是用一张表还是多张表描述实体,这决定主数据中表与表之间存在1:1,1:N,N:M的各种关系。

主数据中字段属性的颗粒度:根据实际的业务需求,定义字段属性的颗粒度,颗粒度细,则数据量大。反之,则少。

遵循的原则:权威原则、全局性原则、共享性原则、扩展性原则。


微信图片_201806251421101.png


3. 制作主数据管理方案


哪个部门,哪个岗位,在什么时候,依据什么进行主数据维护?

  • 建立数据管理的虚拟组织,找到对数据负责的人。每个主数据都要有一个或者多个业务部门对数据负责,不是信息中心。信息中心仅对数据本身负责。

  • 定义数据管理组织的管理职责。针对每个数据的每个字段,都应当回答,谁,在什么场景,依据什么,是否多人和有流程对内容进行管理和维护。


4. 数据清洗方案

当前存在的数据如何变成标准主数据的过程。

  • 责任部门负责数据清洗和对数据质量负责,其他部门进行协助

  • 根据数据质量情况决定组织模式,必要时需要“运动会”模式

  • 提前就数据要求,填报规范做充分培训

  • 采用大数据平台做清洗的技术手段,可以有无限扩张的计算和存储能力,很好的解决清洗数据中的计算资源消耗问题


微信图片_20180625142144.jpg


5. 主数据管理技术方案

数据流向方案

数据的入口在哪里,主数据系统中的数据分发给哪些系统

系统支持方案

数据在哪个系统中录入

系统集成方案

主数据服务规范,第三个系统改造内容


随着互联网时代的来临,企业面对的数据已经远远不是简单的业务数据,而是来自网络和各种设备的大量结构化和非结构化数据即大数据(Big Data)。通常来说大数据质量往往比业务系统产生的主数据的质量还要差,当然也需要治理。


大数据的质量改进主要是通过数据中台的数据清洗,ID Mapping等技术来解决。


数据的质量治理有七大原则:

 

微信图片_201806251421445.png


袋鼠云作为一家企业数据整体解决方案提供商,有一套完整的企业数据解决方案,尤其在数据治理方面,不仅提供数据质量治理的咨询服务,也提供相应的数据质量治理的产品,数栈


微信图片_201806251421441.jpg 


关于数栈,我们下期再讲。


猜你喜欢

转载自blog.51cto.com/13766600/2132488