什么是数据质量-- 读DAMA数据管理有感

       通过学习数据管理知识管理体系指南,了解到在数据质量管理过程中,一个重要原则就是将改进集中在对组织及客户最重要的数据之上开展(即关键数据),也就是说,并不是所有的数据都一样重要,要分出来三六九等,要好钢用在刀刃上,之后需要识别能描述或暗示有关数据质量特征要求的业务规则,只有高质量的数据才能给组织及客户提供更多的价值,实现数据资产的再利用和价值的最大化。数据质量需要从组织文化方面变革,特别是数据文化的建立和领导的重视,领导要有数据意识,同时要意识到数据质量管理是一个持续的、不断往复的全生命周期过程(即戴明环),需要建立相应的组织、制度和标准规范来开展对关键数据的质量管理,同时明确了数据质量维度有哪些,评估和分析数据质量的工具及方法有哪些,常见的提升数据质量的处理方法有哪些,同时分析了引起数据质量问题的常见因素是什么,最后分析了有效的数据质量指标有哪些等。数据质量管理是一个系统工程,长期工程,需要不断的积累总结,迭代循环,形成长尾效应,在未来或者下游业务中才能逐步发挥其高质量数据的价值。

一、什么是数据质量?

数据质量是指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。

数据质量取决于使用数据的场景和数据消费者的需求。数据质量管理的挑战之一,是与质量相关的期望并不总是已知的。通常,客户可能不清楚自身的质量期望,数据管理人员也不会询问这些需求。然而,如果数据是可靠和可信的,那么数据管理专业人员需要更好地了解客户的质量要求,以及如何衡量数据质量。

数据质量管理的一个重要原则是将改进集中在对组织及客户最重要的数据之上开展(即关键数据),关键数据主要来自于监管报告、财务报告、商业决策、持续经营和差异化的竞争商业战略。

数据质量要取得长期成功,关键取决于组织文化的改变即质量观念的建立。

二、数据质量管理的目标和原则有哪些?

目标:

1.方法:根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。

2.标准规范:定义数据质量控制的标准和规范,并作为整个生命周期的一部分。

3.过程性:定义实施、测量、监控和报告数据质量水平的过程。

遵循的原则:

1.重要性。数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确的风险水平。

2.全生命周期。数据质量管理硬覆盖从创建或采购直至处置的数据全生命周期,体现了数据质量是一项持续性工作。

3.预防。数据质量方案重点应放在预防数据错误和降低数据可用性的情形上。

4.根因修正。提高数据质量不只是纠错,还需要针对其特点优化其流程和系统。

5.治理。数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。

6.标准驱动。数据生命周期中的所有利益相关方都会对数据质量有要求,尽量以可标准的方式进行表达和定义。

7.客观测量和透明度。数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论和分享测量过程和测量方法,因为他们是质量的裁决者。

8.嵌入业务流程。业务流程所有者对通过流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。

9.系统强制执行。系统所有者必须让系统强制执行数据质量要求。

10.与服务水平关联。质量报告和问题管理应纳入SLA。

三、为什么要开展数据质量管理?

数据管理的原则是提升数据质量,要实现数据价值,前提是数据是可靠的、可信的(即高质量)。主要业务驱动因素如下:

1.提高组织数据价值和数据利用的机会。

2.降低低质量数据导致的风险和成本。

3.提高组织效率和生产力。

4.保护和提高组织的声誉。

四、数据质量维度主要有哪些?

数据质量维度是数据的某个可测量特性。维度类似于我们物理对象的特征,比如长度、高度等, 提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。

Strong-Wang框架任务数据质量维度一般有内在、场景、表达和访问的数据质量维度,DAMA白皮书将质量维度描述为6个方面,目前这种分法用的比较多,具体如下:

1.完备性。存储数据量与潜在数据量的百分比。

2.唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。

3.及时性。数据从要求的时间点起代表现实的程度。

4.有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。

5.准确性。数据正确描述所描述的“真实世界”对象或事件的程度。

6.一致性。比较事物多种表述与定义的差异。

五、数据质量与元数据的关系

数据质量取决于数据消费者的需求,数据质量的提出是为了满足用户预期,而元数据是阐明期望的主要手段,用于支持持续改进数据质量工作。

六、数据质量改进的生命周期具体指什么?

大多数改进数据质量的方法都是基于物理产品制造过程中质量的改进技术(类比参考)。

数据质量改进的常用方法如下图所示,“计划-执行-检查-处理”,实践是检验真理的唯一标准,小范围实验,有效扩展,持续迭代优化(数据质量改进不是一次性项目,而是一项持续性工程)。

计划阶段:数据质量团队评估已知的问题范围、影响和优先级,并评估对应的问题解决备选方案。

执行阶段:数据质量团队负责努力解决引起问题的根本原因,并对做出持续监控数据的计划。

检查阶段:积极监控按要求测量数据质量,对行动的结果进行评估。

处理阶段:根据上一阶段中指出的不满足数据质量要求的点进行新一轮的评估和处理,重新开始循环。

七、数据质量问题引起的原因有哪些?

1.缺乏领导力导致的问题。

2.数据输入过程引起的问题。

3.数据处理功能引起的问题。

4.系统设计引起的问题。

5.0解决问题过程中引起的问题。

八、主要的数据质量分析与评估方法是什么?

在数据管理过程中,用于分析及评估数据质量的主要方法是数据剖析,用来检查数据和评估质量的数据分析形式。数据剖析使用数学统计技术来发现数据集合的真实模式、内容和质量。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。主要有以下形式:

1.NULL空值:标识空值存在,并检查是否允许空值。

2.最大/最小值:识别异常值,如负值。

3.最大/最小长度:确定具有特定长度要求的字段的异常值或无效值。

4.单个列值的频率分布:能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。

5.数据类型和格式:识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。

九、提升数据质量的数据处理方式有哪些?

1.数据清理或数据清洗: 数据清理或数据清洗,可以通过数据转换使其符合数据标准和域规则。清理包括检测和纠正数据错误,使数据质量达到可接受的水平。

2.数据增强: 数据增强或丰富是给数据集添加属性以提高其质量和可用性的过程。主要示例如下:

1)时间戳。有助于跟踪历史数据事件。定位问题的时间范围。

2)审计数据。审计可以记录数据血缘,这对于历史跟踪和验证很重要。

3)参考词汇表。在定制化的业务语境中,特定于业务的术语、本体和词汇表增强了数据理解和控制。

4)语境信息。上下文语境信息,以供审查和分析。

5)地理信息。通过地址标准化和地理编码增强地理信息。

6)人口统计信息。可以通过人口统计信息增强客户数据,如年龄、婚姻状况、性别、收入或民族编码。

7)心理信息。用于按特定行为、习惯或偏好对目标人群进行细分的数据,如产品和品牌偏好、组织成员资格、休闲活动、 通勤交通方式、购物时间偏好等。

8)评估信息。针对资产评估、库存和销售数据等使用这种增强方式。

3.数据解析和格式化: 数据解析是使用预先确定的规则来解释其内容或数值的分析过程, 数据格式化是将数据按照固定的格式进行标准化。

4.数据转换与标准化: 通过触发数据规则将数据转换为目标体系结构可读取的格式。

十、数据质量相关的工具有哪些?

1.数据剖析工具: 数据剖析工具生成高级别的统计信息,分析人员能够识别数据中的模式并对质量特征进行初始评估。

2.数据查询工具: 数据质量管理的专用工具,也是整个数据应用的公共工具。

3.建模和ETL工具: 用于数据建模和创建ETL过程的工具对数据质量有直接影响。

4.数据质量规则模板: 规则模板给予分析人员机会捕获客户对数据的期望,还有助于弥合业务团队和技术团队之间的交流鸿沟。

5.元数据存储库: 元数据管理的工具,也是进行数据质量管理的重要工具。

十一、有效的数据质量指标有哪些?

管理数据质量的一个重要组成部分是开发度量指标,以便于告知数据消费者对其数据使用非常重要的质量特征。

1.可度量性。

2.业务相关性。

3.可接受性。

4.问责/管理制度。

5.可控制性。

6.趋势分析。

十二、结合数字化转型实践给出的一些思考

在应用系统建设和数据管理实践过程中,一般提到的数据质量管理主要从数据质量规则和管理制度体系进行落地实施,本文只探讨数据质量规则,数据质量规则主要涉及两方面内容:数据集和数据项的质量规则。

1.数据集是围绕业务活动形成的数据集合,一般的数据质量规则包括完整性或周期性规则和时效性规则两种,前者需要根据实际业务体现出业务数据的周期性或完整性规律,比如“井日生产数据表”的“从开始日期到结束日期,该数据集每天应该有一条数据,直到停产或废弃等”;后者主要体现出数据集之间的关联时效性,比如地化作业结束之后5天内上报分析结果数据等。

2.数据项是围绕业务活动,业务特征形成的各个数据集内部的详细内容构成,相当于数据库中的字段,主要的质量规则有以下四种。

1)完整性:两种非空,本身和关联数据项非空,如采油井日报中,采油方式为抽油机井,则泵径不能为空等。

2)准确性:是否为附录表的值,数值范围合理,比如0-24小时,比如基本信息表中的井型等。

3)一致性:表内其他字段的一致性;逻辑一致性,如底深>顶深;跨表关联一致性,如有动态表和基础表的井号一致等。

4)规范性:实际上也是准确性,比如坐标数据度情况下保留小数几位等等(7位),作业开始日期不能存在未来日期等。

猜你喜欢

转载自blog.csdn.net/hhue2007/article/details/129116114
今日推荐