大数据分析如何保证数据质量

  平时企业都会处理数据质量的问题,越来越能够懂得数据库整套系统的运行模式和模型概念,深深觉得数据挖掘的本质其实不仅仅是从海量的数据中发现有效的,有用的,有目的性的数据,深入来说,如果大数据平台里的数据质量根本无法保证,那么数据挖掘就是毫无意义的,命中率和精确度根本没有参考价值。但是问题就出在这里,外围系统抽取隔离的数据,要怎么样清洗和梳理才能够在数据的源头上尽可能的提高数据质量?不可能每个人都懂业务,对针对性业务方面的数据质量如何提升。

  在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。

  1、元数据管理

  元数据管理简单来说,就是建立一套标准的指标(度量)、口径(维度)等体系,建立相关的单位、分组等支撑信息。目的是保证各环节的数据一致性和统一性。

  2、数据产生阶段的质量管理手段

  方法:控制输入

  尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。

  互联网行业的log数据质量之高,简直不需要进行此步骤的管理!可以说互联网的log分析直接推动了大数据分析发展的进程。

  3、数据存储阶段的质量管理手段

  方法:数据统一在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。

  4、数据加工阶段的质量管理手段

  方法:数据清洗数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理,详细操作手段见另外一个回答:数据挖掘中常用的数据清洗方法有哪些?

  5、数据使用阶段的质量管理手段

  数据使用阶段还需要质量管理?当然!无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。

  6、数据质量的持续监控和完善

  数据质量管理并不是一个流程做完就结束了。如同戴明环一样,数据质量同样要建立一个环,不断发现问题,弥补问题。在各个环节新发现的各种问题,定期进行分析,确定应对方案,并加以改进。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。

  每个企业都会存在数据质量问题。所有人都知道数据分析、数据挖掘的80%工作量都在数据处理上。但是与数据分析、数据挖掘红得发紫的热度相比,数据处理显得冷清多了。

原创文章 192 获赞 6 访问量 9万+

猜你喜欢

转载自blog.csdn.net/qq_30187071/article/details/106096493