bigData数据质量监控(Griffin)建设方法 监控指标

一、为什么要做数据质量监控

1)数据不一致

企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。另外,由于各系统的相互独立使用,无法及时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据的深层价值也难以体现。

2)数据不完整

由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要录入数据,没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。

3)数据不合规

没有统一的数据管理平台和数据源头,数据全生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管理流程。

4)数据不可控

海量数据多头管理,缺少专门对数据管理进行监督和控制的组织。企业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应的数据管理制度、办法等无法得到落实。同时,企业基础数据质量考核体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到长效执行。

5)数据冗余

各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一,且部分业务系统针对数据的验证标准严重缺失,造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。

二、建设方法

在这里插入图片描述
质量监管平台建设,主要包含如下8大流程步骤:

  1. 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等;
  2. 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准;
  3. 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等;
  4. 执行检核:调度配置、调度执行、检核代码;
  5. 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等;
  6. 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识;
  7. 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼;
  8. 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。

三、监控指标

1)单表数据量监控

一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值
 SQL结果:var 数据量 = count(“昨天”(如果设置了时间字段的话)满足“过滤条件”的记录)
 数值检测:如果数据量不在[数值下限, 数值上限], 则触发报警
 同比增加:如果((本周的数据量 - 上周的数据量)/上周的数据量100)不在 [比例下线,比例上限],则触发报警
 环比增加:如果((今天的数据量 - 昨天的数据量)/昨天的数据量
100)不在 [比例下线,比例上限],则触发报警
 “阈值配置”的六个数值当中,至少配置一个阈值. 对于没有配置的阈值,不做监控

2)单表空值检测

某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内
 目标字段:选择要监控的字段,不能选“无”
 SQL结果:var 异常数据量 = count("目标字段"为空的记录)
 单次检测:如果(异常数据量)不在[数值下限, 数值上限],则触发报警

3)单表重复值检测

一个或多个字段是否满足某些规则
 目标字段:选择要监控的字段,group by 这里的字段列表后,没有重复
 单次检测:如果(异常数据量)不在[数值下限, 数值上限], 则触发报警

4)单表值域检测

一个或多个字段没有重复记录
 目标字段:选择要监控的字段,支持多选
 检测规则:填写“目标字段”要满足的条件。其中$1表示第一个目标字段,$2表示第二个目标字段,以此类推。上图中的“检测规则”经过渲染后变为“delivery_fee = delivery_fee_base+delivery_fee_extra”
 阈值配置与“空值检测”相同

5)跨表数据量对比

主要针对同步流程,监控两张表的数据量是否一致
 SQL结果:count(本表) - count(关联表)
 阈值配置与“空值检测”相同

6)跨表主外键对比

 监控字段和关联字段:需要符合外键约束的两个字段
 阈值配置与“空值检测”相同

四、Griffin数据质量监控实现

数据质量监控工具-Apache Griffin的使用
数据抽取 [全量抽取、增量抽取]

猜你喜欢

转载自blog.csdn.net/Charlie_jun/article/details/106944822