数理统计01:线性相关性系数,斯皮尔曼相关性系数计算及详解

版权声明:欢迎访问博主官方博客:www.eastnotes.com。一个基于Django框架和Next主题的博客网站 https://blog.csdn.net/gaifuxi9518/article/details/88849283

在统计学中有三个可以衡量两个变量之间相关程度的指标:线性相关系数(linear correlation coefficient)、斯皮尔曼相关性系数(Spearman’s rank correlation coefficient)、肯德尔相关性系数(kendall correlation coefficient)。

这三个相关性系数可以衡量出两个变量变化的相同程度,现有两个变量X、Y。如果X变大的同时Y也在变大,那么他俩呈现正相关,他俩之间的相关性系数值趋近于+1;如果X变大的同时Y反而在变小,那么他俩呈现负相关,他俩之间的相关性系数值趋近于-1;如果X变大的同时Y没有任何有规律的变化,那么他俩没有相关性,他俩之间的相关性系数值趋近于0;

1.线性相关系数计算

线性相关系数评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时,这两个变量具有线性关系。例如,您可能使用 Pearson 相关来评估您生产设施温度的升高是否与巧克力涂层的厚度减少有关。

1.1 计算公式

在这里插入图片描述
分子是两个变量的协方差,协方差是统计学中使用的一种数值,用于描述两个变量间的线性关系。两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近(换句话说,两个变量的曲线距离彼此较近)。
在这里插入图片描述
在上面的公式中,Xi代表的是变量X中的第i个元素,头顶带横的X表示变量X的均值。变量Y与X一致。
线性相关系数的分母是两个变量标准差的乘积,标准差可以描述样本中的数据分布。一个变量的标准差的计算步骤如下:

  • 计算数据的均值
  • 计算数据的方差
  • 对方差开方得到标准差
    在这里插入图片描述

1.2 注意事项

注意,计算线性相关系数的时候分母不能为0,也就是变量X、Y的方差不能为0,什么时候方差为0呢?方差为0意味着所有的数据都必须和平均值相等,那么这些数据都等于平均值。也就是这些数据都相等。

2. 斯皮尔曼相关性系数计算

Spearman 相关评估两个连续或顺序变量之间的单调关系。在单调关系中,变量倾向于同时变化,但不一定以恒定的速率变化。Spearman 相关系数基于每个变量的秩值(而非原始数据)。

Spearman 相关通常用于评估与顺序变量相关的关系。例如,您可能会使用 Spearman 相关来评估员工完成检验练习的顺序是否与他们工作的月数相关。

1.1计算公式

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。下面来看一下它的计算公式:
斯皮尔曼相关系数
n表示数据的数量,di 表示两个数据次序的差值:
在这里插入图片描述
比如这里有两个变量X、Y,刚开始这两个变量中的值都是随意排放的,位置从1-6。先将它们进行排序:
斯皮尔曼相关系数计算举例
排序前数字11位置在1,排序后变成了5;490排序前的位置是2,排序后的位置变成了1。以此类推,得到了变量X 和Y排序后的位置。

  • X:(5,1,4,2,3,6)
  • Y:(6,1,5,2,4,3)
    因此第一个位置的di=6-5=1,平方后还是1,以此类推计算所有di平方的加和,然后得到斯皮尔曼相关系数:ρs= 1-6*(1+1+1+9)/6*35=0.657。

2.1 注意事项

我们不用管X和Y这两个变量具体的值到底差了多少,只需要算一下它们每个值所处的排列位置的差值,就可以求出相关性系数了。而且,即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。

另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小!由于斯皮尔曼相关性系数没有那些数据条件要求,适用的范围就广多了。

猜你喜欢

转载自blog.csdn.net/gaifuxi9518/article/details/88849283