数据转换

1. 去除重复数据

判断数据是否重复——duplicated方法
去除重复项——drop_duplicates方法

1）基本使用
2）subset参数
3）keep参数

2. 将映射用于数据转换——series对象map方法
3. 替换值——replace方法

1）一个值替换为另一个值
2）多个值替换为一个值
3）一次性替换多个值

列表形式
字典形式

4. 索引重命名

index对象的map方法（原数据上改动）
index对象rename方法（保证原数据不变）

1）方法及参数解读
2）基本使用

5. 离散化和面元划分

cut方法

1）参数说明
2）bins参数
3）label参数

qcut方法

1）参数说明
2）q参数

6. 异常值处理
7. 排列和随机采样
8. 计算指标/哑变量——get_dummpies方法

离散变量
连续变量

1. 去除重复数据

首先创建一个含有重复项的DataFrame，
在这里插入图片描述

判断数据是否重复——duplicated方法

判断是否为重复项的方法是duplicated方法，
在这里插入图片描述

去除重复项——drop_duplicates方法

1）基本使用

官方文档中drop_duplicates方法的定义，
在这里插入图片描述

2）subset参数

默认是全部列进行去重，也可以使用字符串或者列表指定对某一列或者某几列进行去重。

3）keep参数

依据官方文档，keep参数有三个可选项，
在这里插入图片描述

2. 将映射用于数据转换——series对象map方法

pandas中的数据对象可以使用map方法，
在这里插入图片描述

现在要在这一基础上添加一列，这一列用于记录food给哪种动物吃，

3. 替换值——replace方法

除了使用fillna方法替换缺失值，还可以使用 replace方法的替换效果更好，

1）一个值替换为另一个值

在这里插入图片描述

2）多个值替换为一个值

只需要将要被替换的值以Python列表的形式传入函数即可，
在这里插入图片描述

扫描二维码关注公众号，回复： 6189904 查看本文章

3）一次性替换多个值

列表形式

在这里插入图片描述

字典形式

在这里插入图片描述

4. 索引重命名

index对象的map方法（原数据上改动）

index对象与Series对象一样可以使用map方法对其进行操作，
在这里插入图片描述
无论是Series还是Dataframe的索引对象都是可以修改的，

index对象rename方法（保证原数据不变）

1）方法及参数解读

在这里插入图片描述
DataFrame的操作相比Series更复杂，因为包含行索引和列索引，

参数说明，

2）基本使用

index和column参数
对DataFrame的列索引进行rename操作，columns参数传入作用到列索引上的方法；而对行索引的rename操作，index参数传入作用到行索引上的方法，
在这里插入图片描述

rename方法可以通过index和columns参数对指定的索引和列名进行修改，