摘录:数据质量管理【仅作了解】

摘录:数据质量管理【仅作了解】

一、概述

1.1 数据存在的问题

  • 信息问题:缺乏统一的数据描述导致业务理解差异;信息标准不统一产生低质量的数据,导致业务人员对数据缺乏信心。
  • 管理问题:对数据质量的价值及其重要性认识不足;缺乏专门的数据质量管理组织与相关的管理制度。
  • 流程问题:需求变更、开发测试等方面没有流程规范和制度;数据创建、数据使用、数据维护等方面没有流程规范和制度。
  • 技术问题:系统建设重功能轻数据;系统接口复杂;数据流向不清,缺乏对数据的整体规划;具体数据处理的各技术的异常造成的数据质量问题。

1.2 数据质量度量规则

  • 完整性:主要包括实体不缺失、属性不缺失、记录不缺失和字段不缺失四个方面。
  • 有效性:对每个数据元素的有效值做出详细描述,然后检核数据是否符合有效性的需求。
  • 唯一性:指主键唯一和候选键唯一两方面。
  • 一致性:指统一数据来源、统一存储和统一数据口径。
  • 准确性:指计量误差、度量单位等方面的精确程度。
  • 合理性:主要包括格式、类型和业务规则的有效性。
  • 及时性:指数据刷新、修改和提取等操作的及时性和快速性。

1.3 数据质量成熟度模型

  • 初始级:通过数据库进行数据管理
  • 定义级:通过模型管理进行数据管理
  • 管理级:通过元数据进行数据管理
  • 优先级:通过企业标准数据架构进行数据管理

二、解决方案

2.1 数据质量探查及分析

需要指定数据质量探查和评估方法,以便初步了解和掌握源数据的数据质量问题,是数据质量保障的基础。

数据质量探查主要从以下四个方面对字段进行探查:

  • 值域分析(列内容分布探查)
  • 完整性分析(空值探查、数值合法性探查、极限值探查、数值大于0探查、数值小于0探查、数值为0探查)
  • 有效性分析(日期合法性探查、换行字符探查、回车字符探查、全角字符探查)
  • 结构整体性分析(字段重复性探查[业务主键])

数据质量探查结果按照表级和字段级分别展示。表级给出表整体概述,字段级给出具体的探查行为与结果。

2.2 数据质量管理目标

  1. 建立检核指标体系,从完整性、有效性、准确性、唯一性、一致性、合理性、及时性七个维度制定度量规则,全面反映数据质量情况。
  2. 对数据质量的问题进行归类、分析和整理,形成数据质量知识库,并提供按数据检核日期、系统、质量维度、度量规则、检核方法、质量问题多角度的数据质量报告。
  3. 建立数据质量提升的控制流程,通过问题的发现、发布、记录及结果检查等各个步骤的跟踪,完成数据流转过程中的数据质量监控。
  4. 提供对数据质量监控指标的预警管理,及时提醒用户告警对象,以及及时解决数据质量问题。

2.3 数据质量管理策略

  • 数据质量指标
  • 质量检核运行
  • 质量问题报警
  • 质量问题分析
  • 问题管理流程

2.4 数据质量管理关键点

  • 制定规范的数据质量度量标准
  • 建立有效的数据质量监管体系
  • 建立完善的数据质量管理制度

高质量的数据来源于数据标准、数据分析、检验以及管理制度的综合作用。

猜你喜欢

转载自blog.csdn.net/Subson/article/details/79203264