数据分析06_pandas数据处理

【pandas05_数据处理】

1、删除重复元素

使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True
使用drop_duplicates()函数删除重复的行

2. 映射

映射的含义:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定
需要使用字典:

map = {
    'label1':'value1',
    'label2':'value2',
    ...
    }

包含三种操作:

replace()函数:替换元素
最重要:map()函数:新建一列
rename()函数:替换索引
1) replace()函数:替换元素

使用replace()函数,对values进行替换操作

2) map()函数:新建一列

使用map()函数,由已有的列生成一个新列
适合处理某一单独的列。
注意:map()函数中可以使用lambda函数
df[“C”] = df[“Go”].map(lambda x : x-3)
df

3) rename()函数:替换索引

3. 异常值检测和过滤

使用describe()函数查看每一列的描述性统计量
使用std()函数可以求得DataFrame对象每一列的标准差
根据每一列的标准差,对DataFrame元素进行过滤。
借助any()函数, 测试是否有True,有一个或以上返回True,反之返回False
对每一列应用筛选条件,去除标准差太大的数据

4. 排序

使用.take()函数排序
可以借助np.random.permutation()函数随机排序
随机抽样:当DataFrame规模足够大时,直接使用np.random.randint()函数,就配合take()函数实现随机抽样

5. 数据聚合【重点】

数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值。

数据分类处理:

分组:先把数据分为几组
用函数处理:为不同组的数据应用不同的函数以转换数据
合并:把不同组得到的结果合并起来
数据分类处理的核心: groupby()函数

6.高级数据聚合

(1)
可以使用pd.merge()函数将聚合操作的计算结果添加到df的每一行
(2)使用groupby分组后调用加和等函数进行运算,让后最后可以调用add_prefix(),来修改列名
(3)
可以使用pd.merge()函数将聚合操作的计算结果添加到df的每一行
使用groupby分组后调用加和等函数进行运算,让后最后可以调用add_prefix(),来修改列名

发布了388 篇原创文章 · 获赞 71 · 访问量 12万+

猜你喜欢

转载自blog.csdn.net/ZZQHELLO2018/article/details/103945179