关于Pearson相关系数的显著性p值如何计算以及背后原因的思考

我们能在网上非常容易找到如下公式：

对于 $X$ 和 $Y$ 变量，有 $n$ 个样本 $x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ ，

则 Pearson 相关系数

$\frac {\sum_{i=1}^n{(x_i-\bar{x})(x_y-\bar{y})}} {[\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2]^\frac{1}{2}} \tag{1}$

其中 $\bar{x},\bar{y}$ 代表样本的平均值，

欲求该 $r$ 值的显著性，则构建 $t$ 统计量
$t=\frac{r}{\sqrt{1-r^2}/\sqrt{n-2}} \tag{2}$
那么，通过查阅 $t$ 分布表，就可以很容易知道 $p$ 值的大小，从而判定当前回归系数是否有意义（有意义： $p < 0.05$ ）。

但是，为什么可以这样算？我们来思考一下。

回忆 t 统计量的公式：

$t=\frac{\bar{x}-\mu}{s/\sqrt{n}} \tag{3}$

其中 $\bar{x}$ 是样本均值， $\mu$ 是总体均值， $s$ 是样本标准差， $n$ 是自由样本数量

多说一句， $t$ 检验的精髓在这里就体现了：
在只知道总体均值 $\mu$ 、而不知道总体方差时，如何知道某些样本是否来自这个总体？
首先，我们得假定一个合理的偏离范围
如果样本均值 $\bar{x}$ 和总体均值 $\mu$ 的偏差（分子）落在这个偏离范围内，则认为它来自这个总体
这个偏离范围，一般用总体自身的振荡 $\sigma^2$ 代表，但是总体方差未知，于是我们便用样本方差 $s^2$ 替代
这样，通过分子和分母的比值，就可以知道当前样本有多大程度偏离总体了
或者说，样本的偏移量到底是总体自身振荡导致的，还是 “样本不属于这个总体” 导致的

我们对比一下（2）和（3）式，可以发现这里实际上是取了：

$\mu=0$ ， $s=\sqrt{1-r^2}$ ，回归问题的自由度是 $n - 2$ 而不是 $n$

那么，这意味着什么？

这意味着 我们在判断当前的 $r$ 有多大程度偏离一个均值为 0、方差为 $1-r^2$ 的总体

首先，为什么要和均值为 0 的总体作比较？

请注意，任何一个显著性检验都离不开零假设，同样，相关性评价问题的零假设如下：

$H_0$ ：变量 $X$ 和变量 $Y$ 没有相关性

显然，在这种假设下，即便拥有再多的样本，计算出来的 $r$ 应该在 0 附近摆动

其次， $X$ 和 $Y$ 无关时，相关系数 $r$ 会在 $[- 1, 1]$ 振荡，

而且，相关系数越大，意味着总体越不发散（振荡越小），因此取该总体的标准差 $s=\sqrt{1-r^2}$

这样，从通俗易懂的角度，我们就理解（2）式的目的了：

假设 $X$ 和 $Y$ 无关，则 $r$ 值应该在 $\pmb{[-1, 1]}$ 附近振荡，但大多数情况下接近 0，即均值为 0

构建的统计量就是在判断，当前的 $r$ 有多大程度远离这个总体，也即有多大可能 $X$ 和 $Y$ 并非无关

当然，以上都是从感性的角度去理解（2）式的合理性，即从 $t$ 分布的意义上去理解（2）式的构造

更严格地讲，问题核心是要证明（2）构建的统计量恰好地服从 $t$ 分布，这是我们可以查表得到 $p$ 值的关键

我们假设 $X$ 和 $Y$ 分别服从正态分布，则 $(X, Y)$ 服从二维正态分布 $(\mu_1,\sigma_1,\mu_2,\sigma_2;\rho)$

则 $H_0$ 实际上等价于 $\rho=0$ ，如下图所示

在这里插入图片描述
（引用自：https://blog.csdn.net/azxswq2541/article/details/120581174）

因此问题就巧妙地变成了：

当 $\pmb{(X,Y) \sim N (\mu_1,\sigma_1,\mu_2,\sigma_2;\rho=0)}$ 时，证明（2）式服从自由度为 $n - 2$ 的 $t$ 分布

这个问题是 Fisher 于 1914 年解决的，他在论文中不仅证明了上式，更给出了任意 $n$ 值、任意 $\rho$ 值下相关系数 $r$ 的分布

有了 $r$ 的理论分布，很容易把（2）式和 $\rho=0$ 带入，发现统计量符合 $t$ 分布

详细过程：

David, Florence Nightingale. Tables of the ordinates and probability integral of the distribution of the correlation coefficient in small samples. Cambridge University Press, 1938.

简易证明：

于忠义. 关于相关检验统计量分布证明的改进[J]. 统计与决策, 2008(2):2.

其他参考：

Cohen, Patricia, Stephen G. West, and Leona S. Aiken. Applied multiple regression/correlation analysis for the behavioral sciences. Psychology press, 2014.

[完]

关于Pearson相关系数的显著性p值如何计算以及背后原因的思考

猜你喜欢