python学习:pandas库之DataFrame官方文档简介

Pandas库是基于Numpy库来创建的,Numpy主要用于矩阵操作,而Pandas主要用于数据处理。

Pandas主要有两种重要的数据结构:Series和DataFrame.

  • Series: 类似一个一维数组,一个Series对应DataFrame的一列
  • DataFrame:类似一个二维数组,一个DataFrame由几个Series列构成。

在我们学习任何一种开源框架,必须得学会阅读其官方文档:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

根据官方文档,我们先看其最左边的目录:

我们通过对各子目录的简单介绍,来了解DataFrame如何运用:

英文目录 中文目录 该目录下常用属性/方法
Constructor 构造方法 可以由numpy数组/字典/DataFrame生成
Attributes and
 underlying data
属性值 index:数据表的行索引
columns:数据表的列索引
shape:数据表的形状
dtypes:数据表值的数据类型
Conversion 转换 astype:转换数据类型
Indexing, iteration 索引/迭代 iloc/loc/iteritems/iterrows/isin
Binary operator functions 二元运算符函数 add/sub/mul/div:加减乘除,元素级计算
dot:点乘
df1.combine_first(df2):用df2的值填充df1的空值
Function application,
 GroupBy & Window
apply方法/分组/ apply:在数据表中沿着行/列方向调用某方法
groupby:通过mapping/方法/标签/标签集进行分组,返回一个GroupBy对象。GroupBy对象可进行统计学各值计算或调用其apply/agg方法+D15。
agg/aggregate:聚合函数
Computations /
Descriptive Stats
计算/描述性统计 describe:输出数据表各列统计值-中位值/方差等
/max/mean/var/corr
Reindexing /
 Selection/
 Label manipulation
重新索引/选择数据/通过标签操作 reindex:重命名行/列
rename:可以通过字典的方法重命名行/列
/reset_index/
head:选择前N行数据,默认前5行
tail:选择最后N行数据,默认后5行
drop_duplicates:返回丢弃了重复值的dataframe
duplicated:根据是否是重复值返回布尔值Series
drop
Missing data handling 缺失值处理 dropna/fillna/replace
Reshaping/
 sorting,/
transposing
改变数组形状/
排序/转换
sort_values:按表中内容值大小排序,
sort_index:按行/列的值大小排序
T:矩阵转置
pivot_table:数据透视表
Combining /
 joining /
 merging
合并/连接 append:在数据表末尾添加行数据
/join/
merge:类似SQL的连接,内连接/外连接
Time series-related 时间序列  
Plotting 绘制图形 plot:通过kind参数绘制不同图形
Serialization /
 IO /
 Conversion
读取操作 from_csv/to_csv
Sparse 稀疏矩阵  
数据分箱技术Binning:pandas.cut()
数据分组技术GroupBy:GroupBy.get_group(groupname1)--> 得到其中一组类别的dataframe

猜你喜欢

转载自blog.csdn.net/Genius9_9/article/details/81168652