pandas入门总结1

numpy 相当于序列化好的矩阵
pandas:相当于字典

0.在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame。  

  0.1:Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能
  0.2:DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵活应用,后续会介绍到。

1.创建序列 Series

 创建方式(3种):

    1)通过一维数组创建序列
    2)通过字典的方式创建序列
    3)二者区别:使用数组创建的Series,索引使用012345...;使用字典创建的Series,索引使用字典的key。
    4)通过DataFrame中的某一行或某一列创建序列

2. 创建矩阵dataframe

  数据框dataframe的创建方式(3种):    

    1)通过二维数组创建数据框
    2)通过字典的方式创建数据框
    以下以两种字典来创建数据框,一个是字典列表(字典里面套list),一个是嵌套字典(字典里面套字典)。
    3)通过数据框的方式创建数据框(截取已有的dataframe一部分)

  2.1 使用numpy创建dataframe    

    

    1 pd.DataFrame(矩阵A,index = listB, columns = listC)

      ——返回:创建一个dataframe格式的矩阵,
      矩阵内容是:参数矩阵A
      行索引名称:参数listB
      列索引名称:参数listC

      注:行索引index、列索引columns不给定时,输出的行列的索引都默认为0123.....

  2.2 创建dataframe方式2——使用字典创建:

    1 pd.DataFrame({'A':1., 'B':pd.Timestamp('20130102'), 'C': pd.Series(1, index = list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E':pd.Categorical(["test", "train", "test", "train"]), 'F': 'foo'})

      ————使用字典,每一item 是 每一列的元素

3.Series/Dataframe的属性:

 3.1   dataframe变量名.dtypes

    ——返回,每一列的数据形式

 3.2 dataframe变量名.index

    ——返回,每一行的索引序号

 3.3 dataframe变量名.columns

    ——返回,每一列的索引序号

 3.4 dataframe变量名.values

    ——返回,一个有同样元素的不带有行列序号的矩阵

 3.5 dataframe的统计量:

      count:非空元素个数
      sum:求和
      mean:平均值
      median:中位数
      mode:众数
      var:方差
      std:标准差
      mad:平均绝对偏差
      min:最小值
      quantile(0.1) :10%分位数
      max:最大值
      idxmin() :最小值的位置
      idxmax():最大值的位置
      skew:偏度
      Kurt:峰度
      describe:一次性输出多个描述性统计指标,必须注意的是,descirbe方法只能针对序列或数据框,一维数组是没有这个方法的

 3.6 矩阵转置:

      dataframe变量名.T

      eg:

        df1.T

 3.7 排序:

     3.7.1  sort_index()——根据行或者列索引序号,对矩阵进行排序

    1 dataframe变量名.sort_index(axis = ...., ascending = True/False)

      ——参数:

          axis = 0 根据行索引序号,对所有行进行排序
          axis = 1 对列进行排序
          ascending = True/False True:正序排列;False:倒叙排序

      3.7.2 sort_value()——对某一行/列,按照元素大小进行排序

     1 dataframe变量名.sort_values(by = 参数A)

      ——参数A:行索引/列索引序号,对哪一行/列进行排序,就输,该行/列的索引序号。

猜你喜欢

转载自www.cnblogs.com/tommyngx/p/10184018.html
今日推荐