index对象:
idmin():用来获取索引长度最小的索引名。
idmanx():与idmin() 相反
index对象允许同名索引存在。判断数据中是否有重名索引存在,可以用is_unique 例:frame.index.is_unique
删除:
drop():
其中有个axis参数,在多维数据时,要用到,初始为0,则删除行,当值为1时,删除列。
例:frame.drop(["name",axis=1) > 删除name列
算术与数据对齐:
两个数据对象可以进算术运算,但是运算时,只有两个数据对象都有相对索引和对象时,才能运算,没有相同时,则为NaN值
DataFrame 数据类型也是一样,只是多了一个字段要相同。
数据结构之间的运算:
数据之间运算很灵活,不同维度数组也可以进行运算。如,可以通过函数来相加 add()
其中还有sub()、div()、mul() 等
DataFrame与Series对象之间也可以运算。但注意的是Series对象与DataFrame的字段要相同,而且只计算第一行
函数的应用:
使用自定义函数(apply):
库函数的使用
排序:
sort_index():以索引排序。参数ascending用于排序方式, 默认升序,当为False时,为降序
其中参数axis,用于多维数组axis=0 默认为0,当为0时,以索引排序,当为1时,以字段排序。
参数by,同样也用于多维数组,使用某列或多列排序。
sort_values():以value值进行排序。参数同上
排位次
rank():方法用于根据某种函数规则进行排序。
重要参数:axis > 用于排序方式。0为索引。1为字段。默认为0
method > 用于排序函数。其中包含 {'average', 'min', 'max', 'first', 'dense'} 默认 average
....
解释:因为默认是求平均值,其中有两个相同元素。1和2,
它们排序是 值 -3 排第一位,值为1.0 。
1为第二位第三位,值为(2+3)/2=2.5。
2为第四位第五位,值为(4+5)/2 = 4.5。
4为最后一位(第六位),值为6.0
相关性与协方差
corr():相关性
cov():协方差
corrwith():相关性(用于不同对象)
Series对象:
ser1.corr(ser2)
ser1.cov(ser2)
DataFrame对象:
frame.corr()
frame.cov()
Series与DataFrame对象:
frame.corrwith(ser)
frame.corrwith(frame1)
NaN数据:
NaN数据其实也是就我们平时中的None值。在数组中也会存在None值。在这里说说常用操作
None、np.NaN、pd.NaT 都表示为空。
dorpna() 或 notnull():用于判断是否为空,如果NaN则不显示出来,
在使用dorpna()时,注意DataFrame对象,当一行中有一个NaN时,都会视为空。其中有个how参数,将其指定为'all‘时,就只有一行中全部为NaN才不显示。
为NaN值填充元素则用fillna()函数。它可以指定全部,也可以指定部分。