Pandas学习1-5

数据读取

pandas.read_csv('文件名.csv')

dtypes() 查看有什么类型

.head() 把读取的数据显示出来(默认显示前五条数据)

想显示多少行就在括号里写几

.tail() 显示后几行,想显示多少行就在括号里写几

.columns 只显示表头(指标) 

.shape 有多少个指标(有多少行,列)

.loc[ ] 取第几号数据(index值)

还可以切片如:.loc[3:6]

如要精准定位则:.loc[行数,’列名‘]

['列名'] 取一列的数据

如果要取两列以上数据则得

创建一个变量来接收['列1',[列2],...]

然后再用创建的变量取(不用加 ' ' !)

.columns.tolist() 把表头转换成列表

.max() 最大值

排序

.sort_values('列名',inplace=True/False)  第二个参数填True表示新建一个,形成一个新的;False表示在原来的基础上改(从小到大排,升序)(如果出现’NaN‘则表示该数据无法读取或显示缺失)

如果想从大到小(降序),则要添加ascending参数:.sort_values('列名',inplace=True/False,ascending=True/False) 第三个参数表示是否升序,默认是升序,True是升序,False是降序

.isnull(变量名) 处理NaN数据 ,显示True的值为NaN值,False则是有数据的值

接受的变量=被筛选的变量名[变量]  筛选,把被筛选的变量名中的变量去除,用接受的变量接受

.pivot_table(index=' ',values=' ',aggfunc=)index的意思是以什么为基准,values的意思是跟什么的关系,aggfunc的意思是他们(前两个值)要什么关系(默认求平均值)

如果要求一个量和其他两个的关系则:.pivot_table(index=' ',values=[' ',' '],aggfunc=)

.mean  求平均值(这是numpy库下的)

.reset_index(drop=True) 还原索引,重新变为默认的整型索引 

.apply(函数体) 调用自己写的函数

猜你喜欢

转载自www.cnblogs.com/jellyli/p/10699562.html