如何化“熵增”为“熵减”,数据质量管理尤为重要

“熵”是热力学第二定律的核心概念,熵其实就是指的“混乱程度”,简单来说熵是衡量我们这个世界中事物混乱程度的一个指标。在一个孤立系统中它的总混乱度(熵)是不会减小的,也就是说如果不做任何管控,事物往往会不断的向无序发展。
其实数据也是一个不断熵增的过程,随着时间的推移会出现无效数据、错误数据、冗余数据、不规范数据、相冲突数据等。如果不好好进行管控,去减少我们数据中的“熵”,我们最后会得到一些无序低价值的数据。
如何化“熵增”为“熵减”,数据质量管理尤为重要。

下定义:解读数据质量管理
数据质量管理是对数据从计划、获取、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。
所以,数据质量是保证数据应用的基础,而要评估数据是否达到预期设定的质量要求,需要有专业权威的评价标准来约束。目前为止,最权威的标准是由全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T36344-2018 ICS 35.24.01)



理框架:数据质量管理系统框架
数据质量很重要,我们知道数据存在的问题,我们也知道数据质量要符合6大评价标准,但是我们要怎么系统化建设和管理呢?数据质量管理一般以数据标准为数据检核依据,以元数据为数据检核对象,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。

方法论:数据质量管理的四个阶段
然而,我们需要按照什么流程来对数据质量进行有效的管控,从而提升数据质量,释放数据价值?一般来讲,数据质量控制流程分为4个阶段:启动、执行、检查、处理。在管控过程中这4个阶段需不断循环,螺旋上升。

猜你喜欢

转载自blog.csdn.net/jane9872/article/details/129797120