数据质量监控笔记

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/fxbin123/article/details/89819451

前言

影响数据质量的因素是什么,数据质量问题类型有哪些,如何设计数据质量监控流程

目标

解决常见数据质量监控需求

一、数据质量相关概念

1、什么是数据质量:

(1)数据质量顾名思义就是数据的质量
(2)数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障
(3)数据质量是数据分析应用的基础,为了获得可靠的数据,企业必须密切关注数据质量,数据质量将是直接影响系统应用成功的关键

2、什么是数据质量管理

(1)数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动
(2)数据质量管理,不仅包含了对数据质量的改善,同时还包含了对组织的改善。针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容。针对组织的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、指定组织流程改善计划、指定组织监督审核机制、实施改进、评估改善效果等多个环节。

3、为什么进行数据质量管理

(1)企业数据质量与业务绩效之间存在着直接联系,高质量的数据可以是公司保持竞争力
(2)大数据时代,如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生不可估量的结果
(3)目前,分析系统中的数据流转和处理环节越来越多,数据管理越来越复杂,数据质量出错的环节也就越显增多
(4)为保证数据更好的为公司及企业的战略提供正确、有力的支撑,必须就要保证数据质量的准确,进而必须要进行严格的数据质量监控,以保证数据的可靠性、高质量

二、数据质量影响因素:

1、需求过程引发

(1)需求过程引发的问题主要指需求设计、开发、测试、上线等过程中引发的数据质量问题
(2)此类问题的原因主要是因为续期过程中的管理机制和流程不健全导致

2、数据源引发

(1)数据源引发的问题是指由于上游数据源不完善或不规范,导致下游系统受到影响,出现数据质量问题
(2)数据源引发的数据质量问题是分析系统数据质量问题的主要来源,主要体现在如下几个方面:

  • 信息不正确
  • 信息不完整
  • 信息不一致
3、统计口径引发

(1)统计口径引发的问题主要值KPI、报表等指标口径中存在的数据质量问题,包括指标准确性、一致性及完整性问题等。
(2)此类问题产生的原因主要有以下情况:

  • 不同原系统或不同业务部门,对相同名称的指标定义和口径不同,造成最终的指标统计结果出现差异
  • 业务部门在描述或定义指标口径时,存在许多不明确和不完善的地方,造成了指标口径的二义性
4、系统自身

(1) 系统自身的问题主要是指系统在开发建设、日常运营和维护过程中引发的数据质量问题,比如数据模型质量问题、系统升级数据信息丢失问题、ETL数据清洗不够彻底带来的问题以及数据仓库流程调度等问题,原因主要有:

  • 数据仓库的建设过程中,由于缺乏规范化、体系化的建设思路,造成系统架构、数据模型、处理流程等不够优化和合理,从而带来数据质量问题

  • 在系统运营中,由于普遍缺乏完善的日常管理和维护流程,在处理、监控数据时,没有可以依据和规范的处理手段,导致操作出现失误或遗漏,造成数据质量问题

三、数据质量问题类型

1.错误值:

由于字段类型与实际存放数据差异,或录入信息错误而导致的数据错误

2.重复值:

数据记录中存在完全一样的重复记录,或从业务上理解不可能存在的关键信息出现重复记录

3.数据不一致:

数据的记录是否符合规范,是否与前后及其他数据集合保持统一。
数据的一致性主要包括数据记录的规范和数据逻辑的一致性

4.数据完整性:

数据的记录和信息是否完整,是否存在缺失的情况

5.缺失值:

正常的数据信息记录中,存在信息缺失的情况
数据缺失主要记录的缺失和记录汇总某个字段信息的缺失,两者都会造成统计结果的不准确,完整性是数据质量最基础的保障

6.异常值

数据记录中出现明显的数据偏差或者数据错误的记录

猜你喜欢

转载自blog.csdn.net/fxbin123/article/details/89819451