python | pandas 改变列的位置、填充缺失值

本期的文章源于工作中,需要固定label的位置,便于在spark模型中添加或删除特征,而不影响模型的框架或代码。

spark的jupyter下使用sql

这是我的工作环境的下情况,对你读者的情况,需要具体分析。

sql = '''
select 
   *
from
   tables_names -- hdfs下的表名
where
   条件判断
'''

Data = DB.impala_query(sql)  -- 是DataFrame格式

**注意:**DB是自己写的脚本文件

改变列的位置

前面生成了DataFrame

mid = df['Mid']
df.drop(labels=['Mid'], axis=1,inplace = True)
df.insert(0, 'Mid', mid)  # 插在第一列后面,即为第二列
df

缺失值填充

df.fillna0

未完待补充完善。

猜你喜欢

转载自blog.csdn.net/xxzhangx/article/details/79186770