pandas数据分析之缺失值处理


当数据中存在缺失值时,可以用其他数值代替缺失值,这里主要用到了Dataframe.fillna()方法。具体的用法如下

1、查看是否有缺失值

首先加载数据,并进行显示数据透视表:

import pandas as pd

data = pd.read_csv("dirty_beer_last.csv")
data1 = pd.pivot_table(data,values=['ibu'],index=['style'],columns=['city'])
data1.head()

结果显示:
在这里插入图片描述

查看是否有空值:

data1.isnull()

结果显示
在这里插入图片描述

2、选择删除行

将含有空值的行删除:

data1.dropna(axis=0)

在这里插入图片描述
结果表明每一行都含有空值

3、选择删除列

data1.dropna(axis=1)

在这里插入图片描述
每一列中也都含有空值。
但这种情况不多见,因为我们通常会选择用列来表示一个变量或指标,因此一般不会因为有几个缺失值就删除一个变量或指标。

4、使用字符串代替缺失值

data1.fillna('missing')

在这里插入图片描述将空值使用missing字符串替换

5、前一个数据代替

data1.fillna(method='pad')

在这里插入图片描述

6、后一个数据代替

data1.fillna(method='bfill',limit = 1)

在这里插入图片描述
用limit = 1限制每列可以替代NaN的数目,上面限制每列只能替代一个NaN值。

7、平均值代替

data1.fillna(data1.mean())

在这里插入图片描述
这里选择使用均值替代,当然也可以用其他的描述性统计量来替代空值。

关于缺失值的函数使用就到这里了,希望小张同学的这篇博客能帮到各位小伙伴!!!

Guess you like

Origin blog.csdn.net/baidu_41797613/article/details/120535512