Python数据分析之第六章

(1)基本统计

基本统计分析:又叫描述性统计分析,一般统计某个变量的最小值、第一四分位值、中值、第三四分位值、以及最大值。

常用的统计指标:计数、求和、平均值、方差、标准差;

描述性统计分析函数:describe();

常用的统计函数:

填写图片摘要(选填)

(2)分组分析

分组分析:是指根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异的一种分析方法;

常用的统计指标:计数、求和、平均值;

分组统计函数:

groupby(by=[分组列1,分组列2,...])

[统计列1,统计列2,...]

.agg({统计列别名1:统计函数1,统计列别名2:统计函数2,...})

参数说明:

by:用于分组的列;

中括号:用于统计的列;

agg:统计别名显示统计值的名称,统计函数用于统计数据;

填写图片摘要(选填)

(3)分布分析

分布分析:是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。

(4)交叉分析

通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;

定量、定量分组交叉;

定量、定性分组交叉;

定性、定性分组交叉。

交叉统计函数:

pivot_table(values,index,column,aggfunc,fill_value)

参数说明:

values:数据透视表中的值;

index:数据透视表中的行;

columns:数据透视表中的列;

aggfunc:统计函数;

fill_value:NA值的统一替换。

返回值说明:

数据透视表的结果。

(5)结果分析

结果分析:是在分组的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法;

axis参数说明:

0  按列运算;

1  按行运算。

数据框的外运算函数:

add  加

sub   减

multiply  乘

div    除

数据框的内运算函数:

sum 求和

mean 均值

var 方差

sd 标准差

(6)相关分析

相关分析(correlation analysis):是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

相关系数:可以用来描述定量变量之间的关系。

填写图片摘要(选填)

相关分析函数:

DataFrame.corr();

Series.corr(other);

函数说明:

如果由数据框调用corr方法,那么将会计算每个列两两之间的相似度;

如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度。

返回值:

DataFrame调用:返回DataFrame;

Series调用:返回一个数值型,大小为相关度。

 

 

猜你喜欢

转载自blog.csdn.net/u013004700/article/details/81180895
今日推荐