皮尔逊、肯德尔、斯皮尔曼相关性

 一 、皮尔逊相关性

统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。

它是由卡尔·皮尔逊弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。

定义

两个变量之间的皮尔逊相关系数定义为两个变量之间的 协方差标准差的商:
上式定义了总体相关系数,常用希腊小写字母   作为代表符号。估算 样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母   代表:
 
 亦可由   样本点的 标准分数均值估计,得到与上式等价的表达式:
其中         分别是对  样本的标准分数、样本平均值和样本标准差

相关系数    

0.8-1.0     极强相关
0.6-0.8     强相关
0.4-0.6     中等程度相关
0.2-0.4     弱相关
0.0-0.2     极弱相关或无相关

使用条件

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

(1)、两个变量之间是线性关系,都是连续数据。

(2)、两个变量的总体是正态分布,或接近正态的单峰分布。

(3)、两个变量的观测值是成对的,每对观测值之间相互独立。

 二、肯德尔相关性(kendall)

Kendall(肯德尔)系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1

适用性

肯德尔相关系数与斯皮尔曼相关系数对数据条件的要求相同

 三、斯皮尔曼相关性(spearman)

两个变量依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

斯皮尔曼相关系数被定义成等级变量之间的 皮尔逊相关系数。对于样本容量为 n的样本, n个原始数据被转换成等级数据,相关系数ρ为
原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。

 四、三大相关性选择

http://www.datasoldier.net/archives/716


扩展:
协方差(Covariance)在概率论统计学中用于衡量两个变量的总体误差
期望值分别为 E[ X]与 E[ Y]的两个实随机变量 XY之间的协方差 Cov(X,Y)定义为:
期望:数学期望(mean)(或 均值,亦简称期望)是试验中每次可能结果的 概率乘以其结果的总和
以下是数学期望的重要性质:
1.
2.
3.
4.当X和Y相互独立时,
又常称 均方差,是离均差平方的算术平均数的平方根,用σ表示

猜你喜欢

转载自www.cnblogs.com/icase/p/11244591.html