【数仓】数据质量

  今天是 618,年中大促。往年 618、双 11 都会参与,买些东西,今年没有参加的欲望。不知道是不是因为在上海隔离太久了,感觉从冬天隔离到了夏天,觉得衣服、鞋子之类的都没那么必要了,囤点蔬菜、粮食才是真的…听说京东的暑期实习生都变成了日常实习生,618 之后开始裁员,不知道真的假的,经济不行了,互联网也不景气。

  上面都是题外话。之前找实习,二面被问了一个问题:数据质量了解吗?当时没有答出来。现在接触了实际工作,发现有专门的数据质量管理平台,大概就是对数据、任务从各种角度进行监测,今天大概说一下。

1.定义

数据质量管理是对数据产生、加工、消费的整个数据生命周期的质量管控,具体的维度包括:

  • 准确性
  • 完整性
  • 一致性
  • 及时性
  • 有效性
  • 唯一性

数据生产阶段:由于系统异常或系统流程等问题,导致的数据缺失或数据的不准确。

数据加工和消费阶段:加工过程中,数据抽取完整性能否与系统产生的数据保持一致、数据产出是否及时等质量问题。

2.目标

针对数仓体系中的表建立一套质量评估体系,从数据的完整性、准确性、⼀致性、有效性、及时性、唯一性等维度进行评价,去引导对数表的建设和对数表准确性进行合理评估。

3.实施

简单来说就是通过一系列规则,从全链路、多角度去监测一些指标,形成质量报告,对质量进行评价。这里举一些需要监控的指标的例子:

  • 表:主键、数据量(行数、占用磁盘大小);
  • 字段:空值行数的占比、重复行数、固定值行数、枚举个数、枚举范围、长度;
  • SLA:对外承诺的最晚产出时间(任务延迟时报警);

每周要进行复盘,对事故、破线、报警个数、报警率、起夜次数进行记录,分析原因,对任务进行优化。

欢迎点击此处关注公众号。

猜你喜欢

转载自blog.csdn.net/weixin_45545090/article/details/125351222