数据清洗笔记

工作上接触到的数据特别脏

主要体现:

1.OCR识别精度

2.人工乱给label,同一个数据能给三种不同的label

 

主要清洗方法:

1.模型特定的预测概率表示完全匹配(如:0.82828)

2.所有特征值>0.99,给全分;所有特征值<0.01,给0分

3.人工筛选

 

希望能找到更加适合的方式

 

清理工具(还没有测试):

OpenRefine: regular expressions, GREL

猜你喜欢

转载自blog.csdn.net/henghen9943/article/details/81164144
今日推荐