pandas,数据清洗,处理缺失值


# 读取文件
filepath = '../data/log.csv'
log_data = pd.read_csv(filepath)
log_data

判断是否存在缺失值
#返回True,False的表格
log_data.isnull()
#只要有一个空值 这一列就是True 否则False
log_data.isnull().any()
#判断每一行是否有空值
log_data.isnull().any(axis=1)
丢弃缺失值
log_data.dropna()
#如果paused这一列有空值 才扔掉数据行
log_data.dropna(subset=['paused'])
#空值全部填充为-1
log_data.fillna(-1)

# 对数据进行排序
sorted_log_data = log_data.sort_values(by=['time', 'user'])
sorted_log_data
#ffill()按照之前的数据填充 和 bfill()按照之后的数据填充
sorted_log_data.ffill()
sorted_log_data.bfill()

猜你喜欢

转载自blog.csdn.net/lildn/article/details/114584120