16种常用的数据分析方法-相关分析

相关性分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

 

相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法。可以分析包括变量间的关系情况以及关系强弱程度等。

 

如:身高和体重的相关性;降水量与河流水位的相关性;工作压力与心理健康的相关性等。

 

 

 

 

相关性种类

 

 

 

 

客观事物之间的相关性,大致可归纳为两大类:

 

 

一、函数关系

 

 

函数关系是两个变量的取值存在一个函数来唯一描述。

 

比如销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。

这一类关系,不是我们关注的重点。

 

 

 

二、统计关系

 

 

统计关系,指两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。

 

比如:子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。

 

这种关系,就叫做统计关系。

 

按照相关表现形式,又可分为不同的相关类型,详见下图:

 

 

 

 

 

 

 

相关性描述方式

 

 

 

 

描述两个变量是否有相关性,常见的方式有3种:

 

1.相关图(典型的如散点图和列联表等等)

 

2.相关系数

 

3.统计显著性

 

 

用可视化的方式来呈现各种相关性,常用散点图,如下图:

 

 

 

 

 

相关性分析步骤

 

 

 

 

Step1:相关分析前,首先通过散点图了解变量间大致的关系情况。

 

如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。

 

 

如上图,展现了平时成绩与能力评分之间的关系情况:X增大时,Y会明显的增大,说明X和Y之间有着正向相关关系。

 

 

Step2:计算相关系数

 

散点图能够展现变量之间的关系情况,但不精确。还需要通过相关分析得到相关系数,以数值的方式精准反映相关程度。

 

相关系数常见有三类,分别是:

 

Pearson相关系数、

Spearman等级相关系数
Kendall相关系数。

 

 

最常使用的是Pearson相关系数;当数据不满足正态性时,则使用Spearman相关系数,Kendall相关系数用于判断数据一致性,比如裁判打分。

 

 

 

 

相关性分析案例

 

 

 

 

  • 数据集说明

 

某公司员工的基本情况,数据集含3列,分别为:性别、年龄、工资,

 

分析主题:希望了解员工年龄和工资水平之间的关系(企业人事部门的读者可关心一下)。

 

 

 

  • 相关性可视化

 

如图,用散点图先观察2个变的关系。

 

 

散点图显示2个变量似乎存在一定的相关性,为了得到更准确的结论,接下来要行为更准确的相关分析验证,让分析结果更清晰。

 

 

  • 相关系数计算-SPSS分析过程

 

 

1.菜单操作:分析——相关——双变量

 

 

 

 

2.结果解读

 

 

 

原假设:工资与年龄间不存在相关关系

 

计算结果sig=0.002,即原假设不成立。现实意义为年龄与工资水平有着极显著的相关关系,也就是说随着年龄的增加,工资会逐渐下降。

 

Guess you like

Origin blog.csdn.net/weixin_42058609/article/details/106365211
Recommended