pandas对不同类别进行填充缺失值:df.transform聚合方法的巧用

首先看数据:

import pandas as pd
x = pd.DataFrame([[166,52,'男'],[152,43,'女'],[182,73,'男'],[172,63,'女'],[np.nan,np.nan,'女'],[np.nan,np.nan,'男']],columns = ['身高','体重','性别'])
x

常用的填充缺失值的方法为使用均值、众数等进行填充,如下:

但当我们需要对不同类别数据进行填充其类别的均值时,可能比较麻烦,大家常用的思路可能如下,即取出不同类别的数据,然后依次填充:

labels = x['性别'].unique()
for label in labels:
    for col in x.columns[:-1]:
        data_ = x.loc[x['性别']==label, col]
        x.loc[x['性别']==label, col] = data_.fillna(data_.mean())
print(x)

 

 但我们可以使用分组以及transform聚合方法更简便的完成这个操作:


x = pd.DataFrame([[166,52,'男'],[152,43,'女'],[182,73,'男'],[172,63,'女'],[np.nan,np.nan,'女'],[np.nan,np.nan,'男']],columns = ['身高','体重','性别'])

x.loc[:,x.columns != '性别'] = x.groupby('性别').transform(lambda x:x.fillna(x.mean()))
print(x)

transform方法的作用为对分组后的数据聚合得到的数返回给每一行(若聚合得到为单个标量,则返回给每一行,即同一个组别的每一行数据相等,若聚合得到的为原数据的大小,则对应返回给原数据,如这里结果),在这里对性别进行分组后,对每个组进行填充然后返回到原数据,即可实现对不同组别进行填充。

猜你喜欢

转载自blog.csdn.net/weixin_46707493/article/details/126740393
今日推荐