数据质量分析之信息调研

这两周在项目组参与了共计70多张表的信息调研，同时负责将调研数据进行整理，形成分析报告并与局方进行交流。这些表是10多个政府部门共享的数据，调研中涉及到如下一些方面：

表、字段调研，也就是整理数据字典，以固定的格式整理到excel中，后续可以做为元数据的采集基础；
数据质量分析，包括完整性、唯一性、时效性、准确性和一致性5个方面，由于时间仓促，主要从表数据记录数、字段的非空约束、唯一性、业务数据的时效性几个方面进行了数据提取和分析。
以上述数据结果为基础，对这些表的建模主题进行了初步划分。

通过这次实际参与数据质量分析，有以下几点体会：

信息调研的价值。除非是对整合自己熟悉的信息系统，否则信息调研远比阅读数据字典能更加快捷、深刻地理解数据，信息调研的流程、模板为理解数据提供了手段。
缺少明确的数据质量校验规则。虽然有5类规则以及案例可供参考，但实际操作中，每个人对哪些字段要采取哪些规则会有不同的判断，导致数据质量分析的力度差异性较大，需要提炼出可执行性更强的校验规则。
信息调研的手段需要升级。全手工的信息调研，实际操作中主要是excel的复制、粘贴，以及写SQL、执行和判断。在这个过程中，除了决定要执行哪些校验规则以及判断执行结果外，其它都是重复性的工作，费时费力。而往往由于要手工操作的内容太多，尤其是每个字段可能会有若干项校验规则，会导致花费较少的精力去判断结果，以及减少要执行的校验规则。因此，需要考虑开发一些数据质量分析的工具，比如，通过界面选择要分析的表、字段以及校验规则，后台自动生成脚本并执行，将最终的结果显示出来，能大大加快调研的效率。
数据质量分析的全面性不够。目前的分析仅仅是从字段的完整性、惟一性、准确性等方面度量数据质量，但并没有对数据的逻辑正确性有很好的检验手段，比如，法人的区域代码与实际地址对应错乱。另外，现在的数据质量仅是体现了是否有空值、是否有重复等，但没有对空值的程度、重复的程度进行量化。

数据质量分析之信息调研

猜你喜欢