python pandas随笔(通用操作)

index对象:

idmin():用来获取索引长度最小的索引名。

idmanx():与idmin() 相反

index对象允许同名索引存在。判断数据中是否有重名索引存在,可以用is_unique 例:frame.index.is_unique

删除:

drop():

其中有个axis参数,在多维数据时,要用到,初始为0,则删除行,当值为1时,删除列。

例:frame.drop(["name",axis=1)  > 删除name列

算术与数据对齐:

两个数据对象可以进算术运算,但是运算时,只有两个数据对象都有相对索引和对象时,才能运算,没有相同时,则为NaN值

DataFrame 数据类型也是一样,只是多了一个字段要相同。

数据结构之间的运算:

数据之间运算很灵活,不同维度数组也可以进行运算。如,可以通过函数来相加 add()

其中还有sub()、div()、mul() 等

DataFrame与Series对象之间也可以运算。但注意的是Series对象与DataFrame的字段要相同,而且只计算第一行

 

 函数的应用:

使用自定义函数(apply):

库函数的使用

排序:

sort_index():以索引排序。参数ascending用于排序方式, 默认升序,当为False时,为降序

其中参数axis,用于多维数组axis=0 默认为0,当为0时,以索引排序,当为1时,以字段排序。

        参数by,同样也用于多维数组,使用某列或多列排序。

sort_values():以value值进行排序。参数同上

 

排位次

rank():方法用于根据某种函数规则进行排序。

重要参数:axis > 用于排序方式。0为索引。1为字段。默认为0

          method > 用于排序函数。其中包含 {'average', 'min', 'max', 'first', 'dense'} 默认 average

....

解释:因为默认是求平均值,其中有两个相同元素。1和2,

它们排序是  值 -3 排第一位,值为1.0 。

1为第二位第三位,值为(2+3)/2=2.5。

2为第四位第五位,值为(4+5)/2 = 4.5。

4为最后一位(第六位),值为6.0

相关性与协方差

    corr():相关性

    cov():协方差

    corrwith():相关性(用于不同对象)

Series对象:

    ser1.corr(ser2)

    ser1.cov(ser2)

DataFrame对象:

    frame.corr()

    frame.cov()

Series与DataFrame对象:

    frame.corrwith(ser)

    frame.corrwith(frame1)

NaN数据:

NaN数据其实也是就我们平时中的None值。在数组中也会存在None值。在这里说说常用操作

None、np.NaN、pd.NaT 都表示为空。

dorpna() 或 notnull():用于判断是否为空,如果NaN则不显示出来,

在使用dorpna()时,注意DataFrame对象,当一行中有一个NaN时,都会视为空。其中有个how参数,将其指定为'all‘时,就只有一行中全部为NaN才不显示。

为NaN值填充元素则用fillna()函数。它可以指定全部,也可以指定部分。

猜你喜欢

转载自blog.csdn.net/fm345689/article/details/88920356