pandas入门总结1

numpy 相当于序列化好的矩阵
pandas：相当于字典

0.在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。　　

　　0.1：Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引的自动对齐功能
　　0.2：DataFrame类似于numpy中的二维数组，同样可以通用numpy数组的函数和方法，而且还具有其他灵活应用，后续会介绍到。

1.创建序列 Series

　创建方式（3种）：

　　　　1）通过一维数组创建序列
　　　　2）通过字典的方式创建序列
　　　　3）二者区别：使用数组创建的Series，索引使用012345...；使用字典创建的Series，索引使用字典的key。
　　　　4）通过DataFrame中的某一行或某一列创建序列

2. 创建矩阵dataframe

　　数据框dataframe的创建方式（3种）：　　　　

　　　　1）通过二维数组创建数据框
　　　　2）通过字典的方式创建数据框
　　　　以下以两种字典来创建数据框，一个是字典列表（字典里面套list），一个是嵌套字典（字典里面套字典）。
　　　　3）通过数据框的方式创建数据框（截取已有的dataframe一部分）

　　2.1 使用numpy创建dataframe　　　　

　　　　1 pd.DataFrame(矩阵A，index = listB， columns = listC)

　　　　　　——返回：创建一个dataframe格式的矩阵，
　　　　　　矩阵内容是：参数矩阵A
　　　　　　行索引名称：参数listB
　　　　　　列索引名称：参数listC

　　　　　　注：行索引index、列索引columns不给定时，输出的行列的索引都默认为0123.....

　　2.2 创建dataframe方式2——使用字典创建：

　　　　1 pd.DataFrame({'A':1., 'B':pd.Timestamp('20130102'), 'C': pd.Series(1, index = list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E':pd.Categorical(["test", "train", "test", "train"]), 'F': 'foo'})

　　　　　　————使用字典，每一item 是每一列的元素

3.Series/Dataframe的属性：

　3.1 dataframe变量名.dtypes

　　　　——返回，每一列的数据形式

　3.2　dataframe变量名.index

　　　　——返回，每一行的索引序号

　3.3　dataframe变量名.columns

　　　　——返回，每一列的索引序号

　3.4　dataframe变量名.values

　　　　——返回，一个有同样元素的不带有行列序号的矩阵

　3.5　dataframe的统计量：

　　　　　　count：非空元素个数
　　　　　　sum：求和
　　　　　　mean：平均值
　　　　　　median：中位数
　　　　　　mode：众数
　　　　　　var：方差
　　　　　　std：标准差
　　　　　　mad：平均绝对偏差
　　　　　　min：最小值
　　　　　　quantile(0.1) ：10%分位数
　　　　　　max：最大值
　　　　　　idxmin() ：最小值的位置
　　　　　　idxmax()：最大值的位置
　　　　　　skew：偏度
　　　　　　Kurt：峰度
　　　　　　describe：一次性输出多个描述性统计指标，必须注意的是，descirbe方法只能针对序列或数据框，一维数组是没有这个方法的

　3.6　矩阵转置：

　　　　　　dataframe变量名.T

　　　　　　eg:

　　　　　　　　df1.T

　3.7　排序：

　　　　　3.7.1 sort_index()——根据行或者列索引序号，对矩阵进行排序

　　　　1 dataframe变量名.sort_index(axis = ...., ascending = True/False)

　　　　　　——参数：

　　　　　　　　　　axis = 0 根据行索引序号，对所有行进行排序
　　　　　　　　　　axis = 1 对列进行排序
　　　　　　　　　　ascending = True/False True：正序排列；False：倒叙排序

　　　　　　3.7.2 sort_value()——对某一行/列，按照元素大小进行排序

　　　　　1 dataframe变量名.sort_values(by = 参数A)

　　　　　　——参数A：行索引/列索引序号，对哪一行/列进行排序，就输，该行/列的索引序号。

0.在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。

1.创建序列 Series

创建方式（3种）：

2. 创建矩阵dataframe

数据框dataframe的创建方式（3种）：

2.1 使用numpy创建dataframe

2.2 创建dataframe方式2——使用字典创建：

3.Series/Dataframe的属性：

3.1 dataframe变量名.dtypes

3.2 dataframe变量名.index

3.3 dataframe变量名.columns

3.4 dataframe变量名.values

3.5 dataframe的统计量：

3.6 矩阵转置：

3.7 排序：

3.7.1 sort_index()——根据行或者列索引序号，对矩阵进行排序

3.7.2 sort_value()——对某一行/列，按照元素大小进行排序

猜你喜欢

0.在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。　　

　创建方式（3种）：

　　数据框dataframe的创建方式（3种）：　　　　

　　2.1 使用numpy创建dataframe　　　　

　　2.2 创建dataframe方式2——使用字典创建：

　3.1 dataframe变量名.dtypes

　3.2　dataframe变量名.index

　3.3　dataframe变量名.columns

　3.4　dataframe变量名.values

　3.5　dataframe的统计量：

　3.6　矩阵转置：

　3.7　排序：

　　　　　3.7.1 sort_index()——根据行或者列索引序号，对矩阵进行排序

　　　　　　3.7.2 sort_value()——对某一行/列，按照元素大小进行排序