结构化数据、非结构化数据、数据清洗等概念

(1)结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

(2)非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

(3)数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

数据清洗原理

数据清洗(data cleaning),简单地讲,就是从数据源中清除错误和不一致,即利用有关技术如数理统计、数据挖掘或预定义的清洗规则等,从数据中检测和消除错误数据、不完整数据和重复数据等,从而提高数据的质量。业务知识与清洗规则的制定在相当程度上取决于审计人员的积累与综合判断能力。因此,审计人员应按以下标准评价审计数据的质量。

(一)准确性:数据值与假定正确的值的一致程度。

(二)完整性:需要值的属性中无值缺失的程度。

(三)一致性:数据对一组约束的满足程度。

(四)惟一性:数据记录(及码值)的惟一性。

(五)效性:维护的数据足够严格以满足分类准则的接受要求。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/84558275