1、多范围选取值
dataframe中可以使用 loc 和 iloc 选择数据。
loc 使用行标签或列标签选择数据,而 iloc 使用索引号。
而当我们想要的数据不是连续排列在一起时,即想要的数据不是一个范围的。如你想要数据框中前两列以及10到15列的数据,那么如何做呢?
使用np.r_
import numpy as np
import pandas as pandas
df = pd.read_csv('scores_data.csv')
#取前两列以及第10列至第15列的数据
df1=df.iloc[:,np.r_[0:2,10:16]]
2、如何查看dataframe中某一列的唯一值
因为是dataframe,因此不能直接用value_counts、unique
可以采用先将dataframe的这一列转换成series,再使用value_counts
(1)使用 pd.Series把dataframe转成Series
ts = pd.Series(df['education'].values)
(2)再使用value_counts函数
ts1=ts.value_counts()
输出为:
(3)利用shape进行统计
ts1.shape
输出为:
因此education这一列中唯一值的数量为16
写在最后:大佬们如果有其他的方法求指导啊~~~