python数据分析与挖掘实战（四）

前几篇介绍了对于数据预处理前的数据分析的处理方法，下面介绍python的pandas库和matplotlib里面，对于前面的方法的对应函数，前面的几个文章里也包含了这几个函数的用法，这里做一些总结。
Pandas提供了大量与数据探索相关的函数。这些统计特征函数能反映出数据的整体分布，主要作为Pandas的对象DataFrame或Series的方法出现。
sum()：计算数据样本的总和（按列计算）
mean()：计算数据样本的算术平均数
var()：计算数据样本的方差
std()：计算数据样本的标准差
corr()：计算数据样本的Spearman(Pearson)相关系数矩阵

ser.corr(method='pearson')

method参数为计算方法，支持pearson-默认选项、kendall以及spearman

s1.corr(s2, method='pearson')

s1，s2均为Series，指定计算两个Series之间的相关系数
cov()：计算数据样本的协方差矩阵
从直观上来看，协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

frame.cov()

frame为DataFram，返回协方差矩阵。

s1.cov(s2)

s1，s2均为Series，指定计算两个Series之间的协方差
skew()：样本值的偏度（三阶矩）
kurt()：样本值的峰度（四阶矩）
describe()：给出样本的基本描述（基本统计量如均值、标准差等)

除了上述基本的统计特征外，pandas还提供了一些非常方便实用计算统计特征的函数，主要有累积计算（cum）和滚动计算（pd.rolling_）;

cumsum():依次给出前1,2，3,4，·····，n个数的和
cumprod():依次给出前1,2，3,4，·····，n个数的积
cummax():依次给出前1,2，3,4，·····，n个数的最大值
cummin():依次给出前1,2，3,4，·····，n个数的最小值
rolling_sum():计算数据样本的总和（按列计算）
rolling_mean():数据样本的算术平均数
rolling_std():计算数据样本的标准差
rolling_var():计算数据样本的方差
rolling_corr():计算相关系数矩阵

python的主要做图库是matplotlib，而pandas基于matplotlib并对某些命令进行了简化

plot()：绘制线性二维图，折线图，散点图
pie()：绘制饼形图
hist()：绘制二维条形直方图，可显示数据的分配情况
boxplot()：绘制样本数据的箱型图
plot(logy=True)：绘制y轴的对数图形
plot(yerr=error)：绘制误差条形图

做图之前通常要加载以下代码

import matplotlib.pyplot as plt #导入做图库
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

关于线性二维图，折线图，饼图，直方图箱型图可以具体查看python统计作图的用法

3ho-

发布了7 篇原创文章 · 获赞 1 · 访问量 195

私信关注

python数据分析与挖掘实战（四）

python数据分析与挖掘实战（四）

猜你喜欢