应征之作——你会如何处理无效数据?

应征之作——你会如何处理无效数据?

看到了C站的活动,所以谈一下对无效数据的看法。

对于数据库管理员以及数据库开发人员,以及数据分析人员来说
无效数据是时时处处都存在的,必须始终与无效数据周旋到底。

一 无效数据的概念


  1.1 什么是无效数据


   无效数据是无法应用于数据分析的数据。无论是数据过期,
数据未被授权,数据类型不对,数据值超出有效值的范围,
数据项有缺失,数据自身因输入等原因造成的错误 这些统统
是无效数据的例子。

  1.2 无效数据对统计带来的不利影响有哪些


第一个影响是可以造成数据分析程序运行出错。
第二个影响是使得数据分析结果出现严重错误,或者是误差变大。
第三个影响是当无效数据占比太大时,导致项目失败

  1.3 如何识别无效数据


第一步:定义无效数据的标准
第二步:开发数据清洗的程序 或者在数据清洗的工具
中定义识别无效数据的规则 
第三步:执行程序
第四步:生成无效数据的识别报告


二 无效数据的处理方法

2.1 方法一数据恢复

例如音频数据的格式不符合要求,采用格式转换工具,
统一进行批量转换格式。
例如图片数据的分辩率不同,采用图像编辑软件统一
批量,剪辑成相同的大小。
例如数据库中的数据记录类型不一致,可以统一转成
相同的类型

2.2 方法二数据直接打上无效的标记

通过标记的方法,把无效数据排除在数据分析之外。
对于音频,视频,图片等非结构化的数据,它们往往存在
于文件中,这时通过对文件名进行统一的修改,例如加上无效
两个字作为结尾。

对于数据库中的记录的无效,会在相应的字段上,设置为无效。

2.3 方法三 数据直接删除

这种方法很少用,但是当无效数据的比例较大时,就需要
直接进行删除了。这种方法简单粗暴,需要慎用。

三 如何减少无效数据

3.1 在技术上,事前的数据校验与事中处理相结合

从数据的来源上看,有以下几种:

1 用户在web页上的手工输入
   在网页前端上加入严谨的验证程序,在服务器端再
进行验证与处理

2 传感器从现场获得的实时数据
由于网络传输的不稳定等情况,常常造成数据缺失。
需要有识别程序来检测数据缺失,以及用数据插入法
进行数据恢复等。

3 合作的第三方等通过协议获得的数据
在协议中要约定容易检测的数据质量指标。而且要约定
检测工具等细节,如果数据不合格,需要让第三方去返工。

4 由员工或者是外包团队处理的数据
要有质量检测部门的数据质量检测。

3.2 在管理上,数据质量规范与数据质量控制相结合

数据质量规范要具体详细。数据质量控制方法也要在
内部公开。

3.3 在制度上,数据评估制度与奖罚制度相结合

采用排名与末位淘汰等


四 实际案例举例

在以往的实际工作中,处理的数据有

4.1 日期与时间类的数据

主要检查超出特定范围的数据

4.2 IP,邮件地址,手机号,性别,地址等有特别格式的数据

主要检查 违反格式的数据

4.3 温度,湿度,光照度,电流,电压,功率等物联网采集的数据

主要检查 整体上的记录缺失情况,单一数据的值范围超出的问题

4.4 代码,文本,图像的数据

主要是安全合规性检测。在代码的检查包括语法检查,语义检查,
危险代码的特征分析,代码功能分析等。

文本数据主要是内容分类,提取关键字,分析正负向意图等。

图像的检查包括,格式,大小,是否彩色的分类,提取标签,
鉴别违规内容等。
 

猜你喜欢

转载自blog.csdn.net/gggwfn1982/article/details/130747119
今日推荐