pandas_2

  • 使用pandas也可以画图

    • plot方法
      -data.cumsum().plot(),plt.show()
  • pandas读取数据

    • 常用的数据类型是 .csv,.h5(hdf5)
    • 读取.csv文件:pandas.read_csv(文件路径,sep=',', name=列索引名子(默认None),usecols=指定读取的列名(默认None))
    • 读取.h5文件:pandas.read_hdf(文件路径,key=读取的键,mode=打开的方式,**kwargs)
  • hdf5

    • hdf5是一种文件类型,适合存储大量的数据,支持存储多个键值。特点是支持压缩,跨平台。
  • pandas保存文件

    • 保存文件到.csv格式。DateFrame.to_csv()
    • 保存文件到.h5格式:DataFrame.to_hdf()

pandas的数据处理

  • 基本处理

    • 缺失值
    判断数据是否为nan:pd.isnull(),pd.notnull()
    处理方式:
    1.存在缺失值nan:
    1.1:删除存在的缺失值:dropna(axis=‘rows’)
    1.2:替换缺失值:fillna()
    2.不存在缺失值nan
    2.1先替换:df.replace()
    2.2再进行缺失值的处理
    • 日期
  • 数据的离散化

    • 数据的类型:连续型:在一个区间内可以无限划分;离散型:分成若干个类,每个类不能再划分
    • pd.get_dummies()
  • 数据的合并

    • 沿轴合并:pd.concat
    • 按照索引合并:pd.join
    • 按照指定列进行合并:pd.merge
  • 交叉表与透视表

    • 交叉表:用于计算分组个数,寻找两个列之间的关系 .pd.crosstab(value1, value2)
    • 透视表:DateFrame.pivot_table([],index=[])
  • 数据的分组与聚合

    • 分组:DataFranme.groupby(by='')
    • 分组后,可以用一些函数再将数据聚合起来:
    • 函数有:count,sum,mean,median,std,var,min,max…

猜你喜欢

转载自blog.csdn.net/michael_cool/article/details/80338143