立即学习:https://edu.csdn.net/course/play/26990/361139?utm_source=blogtoedu
数据清洗;
numpy,pandas;
大纲:
常用工具(numpy、pandas-series、dataframe)
文件操作(csv、excel、mysql)
数据表处理(筛选、增删改查、整理)
数据转换(字符串、日期格式转换)
数据统计(分组groupby、聚合函数、apply函数)
数据预处理(重复值、缺省值、异常值、数据离散化)
需要数据清洗问题;
1.数据缺失-属性值空;
2.噪声-数据值不合理;
3.不一致-数据前后存在矛盾;
4.数据冗余-数据两或者属性数目超过数据分析需要;
5.离散点/异常值
6.数据重复