pandas-02-数据清洗&预处理
文中用S代指Series,用Df代指DataFrame
数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,分箱,随机采样,向量化编码等方法。每种方法都给出了代码和实例,并用表格进行总结。
D. 字符串处理
1. Python自带的字符串处理函数
- string.split(‘,’) 用指定的分隔符分割字符串
- string.strip() 去掉空格,换行符
- ‘::’.join(string)
- ‘,’ in string 用于判断 ‘,’ 是否在字符串内
- string.index(‘,’) 返回第一个找到的‘,’的索引,若未找到将会报错
- string.find(‘,’) 返回第一个找到的‘,’的索引,若未找到将会返回 -1
- string.count(‘,’) 返回不重叠的个数
- string.replace(‘,’,’ ‘) 使用空格替换‘,