2.2 数据清洗

2.2 数据清洗

李沐

B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/

1. 网页数据抓取

在这里插入图片描述

1. 数据错误

一般情况下在收集完数据之后,要对数据进行处理,因为数据里面有很多噪音。如果有很多噪音就要对其进行清洗

如果没有噪音,但是数据不是训练模型所需要的格式的话,也要对其进行格式转换

噪音和格式问题都解决完之后,如果模型难以训练,可能就是数据特征不明显,可以对其进行特征提取处理

2. 错误类型

  • 异常数据:一些样本的数据不在正常的分布区间里面。
  • 规则冲突:一些数据不符合数据类型规则等
  • 模式冲突:违反语义、语法的限制

难点:不清楚生产中的数据 能到到什么精度

在这里插入图片描述

2.1 Outlie

猜你喜欢

转载自blog.csdn.net/ch_ccc/article/details/129888451
2.2