为什么不能用in成员运算符判断pandas数据中的缺失值?

       in成员运算符是用来判断一个值是否在某一个可迭代对象中的,比如 x in y这个语句,如果x在y中,则返回True,不然返回False。一般情况下,这样判断并不会有什么问题,但是如果是 np.nan in s这样的语句,其中s表示一个pandas中的Series对象,就行不通了,这是为什么呢?原因是numpy中的nan常量和pandas中的空值是不兼容的,其两者是两种不同的数据类型,numpy中的nan的类型是float,而如果我们是以np.nan来构造pandas中的空值的话,则后者的空值类型是numpy.float64。两者对象并不兼容,从而自然通过in成员运算符是无法做出正确有效的判断的,具体看图一的例子。

(图一)

       因此,当我们判断pandas数据中的缺失值的时候,不能用in来判断,以防判断错误。一般的,判断pandas数据的缺失值,可以通过isna()或isnull()方法结合Series的any()或者all()方法来判断。对于一个Series,其isna()或isnull()方法会返回一个bool值组成的Series对象,然后再调用Series的any()或all()方法,其中any()方法的意思是,如果这个bool值组成的Series中有True,则返回True,不然返回False,all()方法的意思是,若全部都是True,则返回True,不然返回False。

       注意,我们通过会通过np.nan来作为空值的填充,并且pandas中的空值nan也是一个对象,如果直接用any()或all()方法判断也是不行的,因为nan是一个非空对象,因此其在any()或all()的判断下是True的,因此不可直接用这两个方法判断,而是先要通过isna()或isnull(),因为isna()和isnull()这两个方法和numpy以及pandas中的nan都是兼容的,可以正确判断,所以应该先通过这两个方法判断,返回由bool值组成的数据对象后再做相应的其他处理。

猜你喜欢

转载自blog.csdn.net/S_o_l_o_n/article/details/82961569
今日推荐