做过大数据的伙伴应该都清楚,数据的质量是直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。
而最近我们在所进行的数据治理项目的过程中就对数据质量标准和质量规则进行了梳理,数据的质量是从六个维度进行衡量,每个维度都从一个侧面来反映数据的品相。
根据检验复杂的程度由低到高,这六个维度分别是:完整性、及时性、唯一性、一致性、规范性和准确性。
那么,相应的每一个检核维度又可以参考以下的质量规则来对数据进行校核:
完整性
- 空值或者无效:检查字段是否为空;检查数值是否为0
- 记录数异常:检查源表和目标表的记录条数是否一致
及时性
- 时间切片缺失:检查是否有缺失日期数据
唯一性
- 存在冗余:检查是否有重复数据(技术主键和业务主键)
一致性
- 映射异常:源表和目标表中直接映射的字段值相同
- 无法关联:检查外键是否正确
- 违反交叉验证规则:数值交叉校验规则和特定值交叉校验规则
规范性
- 违反码值规范:值域约束——代码表值域约束
- 违反格式规范:日期格式是否正确;利用通用格式规则对字段进行检核,如身份证
准确性
- 值域异常:值域约束(指定有业务含义的数值值域和文本值域)
- 时序波动异常:单一维度分布稳定性校验(维度/度量);环比数据相比正常
最终,在根据实际的业务情况对数据质量规则进行梳理完成之后,就可以输出一个数据质量校核规则梳理的文件(可以是Excel格式)。