相关性分析

目录

相关性分析

从随机变量之间的关系角度

从随机变量自身的分布类型角度

相关性检验

Pearson(皮尔逊相关系数)

Spearman(秩相关系数)

Kendall Rank(肯德尔相关系数)

Kappa一致性系数

卡方检验

Fisher精确检验


“工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。


相关性分析

顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多个角度立体地剖析相关性分析有助于我们更立体地掌握相关性分析:

从随机变量之间的关系角度

  • 线性相关(Pearson Spearman Rank Kendall Rank)
  • 非线性相关

从随机变量自身的分布类型角度

  • 连续变量与连续变量(Pearson Spearman Rank Kendall Rank)
  • 连续变量与分类变量(Spearman Rank Kendall Rank)

相关性检验

Pearson(皮尔逊相关系数)

皮尔逊相关系数适用于:

  • 两个变量之间是线性关系,都是连续数据;
  • 两个变量的总体是正态分布,或接近正态的单峰分布;
  • 两个变量的观测值是成对的,每对观测值之间相互独立。

随机变量XY的皮尔逊相关系数\rho_{X,Y}计算公式如下:

$$\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y} $$

Cov(X,Y)为随机变量XY的协方差、(\sigma_X,\sigma_Y)分别表示随机变量XY的标准差,\rho_{X,Y}\in[0,1],越大代表随机相关性越强。

Spearman(秩相关系数)

Spearman秩相关系数适用于:

  • 随机变量是成对的有序分类变量;
  • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

随机变量XY的Spearman秩相关系数\rho_{S}计算如下,对原始随机变量x_i 、y_i降序排序,记d_i^xd_i^y为原始x_i 、y_i在排序后列表中的位置,d_i^xd_i^y称为x_i 、y_i的秩次,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(极为T_x)或相持在变量Y上(记为T_y ),秩次差d_i=d_i^x-d_i^y。Spearman秩相关系数为:

  • 没有相持等级

\rho_S=1-\frac{6\sum d_i^2 }{n(n^2-1)}

  • 有相持等级

\rho_S=\frac{\sum x^2 +\sum y^2 -\sum d_i^2}{2\sqrt{\sum x^2\sum y^2}},   \sum x^2=\frac{N^3-N}{12}-\sum T_x,  \sum y^2=\frac{N^3-N}{12}-\sum T_y

举个例子:

x_i y_i d_i^x d_i^y d_i
4 7 5 6 1
44 67 1 1 0
15 9 4 5 1
23 54 2 2 0
18 21 3 4 1
2 33 6 3 -3

对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571

Kendall Rank(肯德尔相关系数)

肯德尔相关系数适用于:

  • 随机变量是成对的有序分类变量;
  • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

肯德尔系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。P为和谐对(变量大小顺序相同的样本观测值)的个数、Q为f不和谐对(变量大小顺序相同的样本观测值),n为随机变量容量。一对观测值中,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(极为T_x)或相持在变量Y上(记为T_y ),因此公式可以表示为:

  • 没有相持等级

\tau_b=\frac{2(P-Q)}{n(n-1)}

  • 有相持等级

\tau_b=\frac{P-Q}{\sqrt{(P+Q+T_x)(P+Q+T_y)}}

Kappa一致性系数

Kappa一致性系数适用于:

  • 随机变量是成对的分类变量。

随机变量XYKappa一致性系数K计算公式如下:

K=\frac{P(A)-P(E)}{1-P(E)}P(A)=\frac{1}{NK(K-1)}\sum^N_{i=1}\sum^m_{j=1}n_{ij}^2-\frac{1}{K-1},  P(E)=\sum^m_{j=1}P_j^2,  P_j=\frac{C_j}{NK},  C_j=\sum^N_{i=1}n_{ij}

N为随机变量容量,K为一致预测,n_{ij}为细格预测数,也可以表示为:

K=\frac{p_0-p_c}{1-p_c}

举例:

预测\实际 A B C
A 239 21 16
B 16 73 4
C 6 9 280

p_0=\frac{239+73+280}{664}=0.8916,  p_c=\frac{261*276+103*93+300*295}{664*664}=0.3883,  K=\frac{0.8916-0.3883}{1-0.3883}

卡方检验

卡方检验适用于:

  • 随机变量是成对的分类变量;
  • 最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。

卡方检验是以\chi ^2分布为基础的一种常用假设检验方法,它的无效假设H_0是:两个分类变量之间无关。

\chi ^2=\sum^k_{i=1}\frac{(A_i-np_i)^2}{np_i}A_ii水平的观察频数,n为总频数,p_ii水平的期望频率。k为单元格数。当n比较大时,\chi ^2统计量近似服从k-1个自由度的卡方分布。

举例:

组别 有效 无效 合计
14(13.6) 20(21.9) 34
16(16.4) 25(24.6) 41
合计 30 45 75

第1行1列: 34×30/75=13.6

第1行2列: 34×45/75=21.9

第2行1列: 41×30/75=16.4

第2行2列: 41×45/75=24.6

\chi ^2=\frac{(14-13.6)^2}{13.6}+\frac{(20-21.9)^2}{21.9}+\frac{(16-16.4)^2}{16.4}+\frac{(25-24.6)^2}{24.6}=0.1929

不能拒绝原假设,认为随机变量不相关。

Fisher精确检验

  • 在卡方检验的基础上,如果样本量不足40,或者最小理论频数小于5;
  • 如果卡方检验的p值在0.05左右,使用Fisher精确检验。

假设二分类变量XY如下,p值计算如下:

  合计
有效 a

b

a+b
无效 c d c+d
合计 a+c b+d a+b+c+d

p=\frac{C_{a+b}^{a}C_{c+d}^{c}}{C_{n}^{a+c}}=\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}

Cochran-Mantel-Haenszel(简称CMH检验)

  • 与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析(One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验(Kruskal一Wallis Test)。
  • 对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish's精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel-Haenszel Test)。

猜你喜欢

转载自blog.csdn.net/qq_17438303/article/details/81253965