[转载] 用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())

参考链接: Python中的numpy.all

最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据中的空值该如何获取。 

我的目的本来是获取数据中的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍: 

1.关于np.nan: 

先明确一个问题,即空值的产生只有np.nan()一种方法。 

# np.nan()的一些奇妙性质:

np.nan == np.nan

>>> False

np.isnan(np.nan)

>>> True

np.nan is None

>>> False

type(np.nan)

>>> float 

总结一下: 

np.nan不是一个“空”对象,用 i is None判断是False;对某个值是否为空值进行判断,只能用np.isnan(i)函数,万万不可用 i == np.nan()来做,否则你会死的很惨的,因为空值并不能用判断相等的“==”正确识别(上例前两条);np.nan非空对象,其类型为基本数据类型float(是不是很神奇,我也不知道为什么要这样设计)

  

2.np.isnan()和pd.isnull()何时使用: 

# 首先创建一个DataFrame:

bb = pd.DataFrame({'a':[0,1,2,np.nan]})

bb

>>>     a

    0    0.0

    1    1.0

    2    2.0

    3    NaN

# 先测试一下np.isnan()

np.isnan(bb)

>>>     a

    0    False

    1    False

    2    False

    3    True

# 值得一提的是,如果想获悉整个DataFrame有无空值,可以在此基础上这样做:

np.isnan(bb).all()

>>> a    False

    dtype: bool          # 这行是指返回值的dtype

# 再测试一下isnull()

pd.isnull(bb)

>>>     a

    0    False

    1    False

    2    False

    3    True

由上可见,其实np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验。 

此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样。 

上面提到的any()/all()函数,请见pandas文档: 

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.all.html#pandas.DataFrame.all 

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.any.html#pandas.DataFrame.any 

其他与空值检测或删除相关的函数还有:notna()、fillna()、dropna()等等。实战中应灵活使用。

猜你喜欢

转载自blog.csdn.net/u013946150/article/details/113078145
今日推荐