2.2 数据清洗
李沐
B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/
1. 网页数据抓取
1. 数据错误
一般情况下在收集完数据之后,要对数据进行处理,因为数据里面有很多噪音。如果有很多噪音就要对其进行清洗。
如果没有噪音,但是数据不是训练模型所需要的格式的话,也要对其进行格式转换。
噪音和格式问题都解决完之后,如果模型难以训练,可能就是数据特征不明显,可以对其进行特征提取处理。
2. 错误类型
- 异常数据:一些样本的数据不在正常的分布区间里面。
- 规则冲突:一些数据不符合数据类型规则等
- 模式冲突:违反语义、语法的限制
难点:不清楚生产中的数据 能到到什么精度