10.数据清洗之数据表处理之数据修改和查找

#在数据中,可以使用rename修改列名称或者行索引名称

#使用loc方法修改数据

#使用loc方法查找符合条件的数据

#条件与条件之间用&或者|连接,分别代表‘且’和‘或’

#使用between和isin选择满足条件的行

#所有数据按照str格式读取
df1=pd.read_csv('1.csv',encoding='utf-8',dtype=str)
df1.head(10)

#数据修改
#把gender列的0改为女性,1改为男性
df1.loc[df1['gender']=='0','gender']='女性'
df1.loc[df1['gender']=='1','gender']='男性'
df1.loc[df1['gender']=='2','gender']='未知'
df1.head(5)
#改列名,用字典形式表示
df1.rename(columns={'user_id':'用户ID','birthday':'出生日期','gender':'性别'},inplace=True)
df1.head(10)
#改行名
df1.rename(index={3:123,4:3333},inplace=True)
#iloc与loc区别
df.iloc()按位置取得,与标签名改不改没有关系
df.loc()按标签名索引
#把修改的行索引改为默认值、重置
df1.reset_index(drop=True,inplace=True)

#查询

df['buy_mount']>10#返回的是大于10的bool索引
df[df['buy_mount']>10]#返回满足条件的所有行
df[~df['buy_mount']>10]#返回<10的满足条件的所有行

#多条件查询,用()括起来

df[(df['buy_mount']>10)&(df['day']>20140101)]


#between方法智能用于整数,浮点数,字符型没法用
df['buy_mount'].between(4,10,inclusive=True)#包括4与10,输出bool向量
df[df['buy_mount'].between(4,10,inclusive=True)]#筛选出4与10之间的数据
#isin多条件 查询 以列表形式,只筛选数字为28或38的数据
df['cat1'].isin([28,38])#bool向量
df[df['cat1'].isin([28,38])]#数据输出
basic[['户主身份证号','性别','婚姻状况']][(basic.健康状况=='良好')&(basic['农村户口人数']>3)]
basic[['户主身份证号','性别','婚姻状况']][basic['农村家庭人数'].between(4,10,inclusive=True)]
basic.loc[basic['是否加入农村合作社']=='未知','是否加入农民合作社']='否'
basic.rename(columns={'出生年月':'出生日期','文化程度':'受教育水平'},inplace=True)
basic.rename(index={1:'one','10':'ten'},inplace=True)

实操:
发布了65 篇原创文章 · 获赞 20 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/l641208111/article/details/104228942