大数据之路、阿里巴巴大数据实践读书笔记 --- 第十五章、数据质量

  • 随着IT向DT时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着极其重要的角色。而对于被日益重视的数据,如何保障其质量是一个关注的话题;

  • 数据质量是数据分析结论有效性和准确性的基础,也是一切的前提。如何保障数字质量,确保数据可用性时阿里数据仓库建设不容忽视的环节。

一、数据质量保障原则

  • 从四个方面评估

    • 完整性

    • 准确性

    • 一致性

    • 及时性

  • 1.完整性

    • 完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的却是主要包括了确实和记录中某个字段信息的却是,两者都会造成统计结果不准确,所以说完整性是数据质量的最基础的保障。如碧交易中每天支付订单数都在100W笔左右,如果某天支付订单突然下降1W笔,那么很可能是记录缺失。对于记录中某个字段信息的缺失,比如订单的商品ID、卖家ID都是必然存在的,这些字段的空值个数肯定是0,一旦大于0就必然违背了完整性约束;

  • 2.准确性

    • 准确性是指数据中记录的信息和数据是否准确,是否存在异

猜你喜欢

转载自blog.csdn.net/u012965373/article/details/105548880