数学建模 --- 皮尔逊相关系数

相关系数

  1. 皮尔逊person相关系数 — 一种线性相关系数
  2. 斯皮尔曼spearman等级相关系数

衡量两个变量之间的相关性的大小,根据数据满足的不同条件选择不同的相关系数进行计算和分析
在这里插入图片描述

相关系数的选择

在这里插入图片描述

皮尔逊相关系数

1. 总体皮尔逊相关系数

在这里插入图片描述
在这里插入图片描述

  • 皮尔逊相关系数反应的是一种线性相关系数

协方差的大小与两个变量的量纲有关,所以不适合比较
皮尔逊相关系数可以看成标准化后的协方差

2. 样本皮尔逊相关系数

在这里插入图片描述

  • 样本相关系数,样本标准差分母为 n − 1 n-1 n1是因为无偏估计量
3. 皮尔逊相关系数理解误区

在这里插入图片描述

  • 一定要先画散点图,图中表示了线性关系(即先确定线性相关),才能用皮尔逊相关系数

在这里插入图片描述
即:
在这里插入图片描述

皮尔逊相关系数假设检验的条件

在这里插入图片描述
必须判断数据是否是正态分布,此处为判断方法

描述性统计

matlab

在这里插入图片描述

Excel

在这里插入图片描述

SPSS

在这里插入图片描述

求相关系数过程

皮尔逊相关系数 — 一种线性相关系数

判断数据是否是正态分布

必须判断数据是否是正态分布,此处为判断方法

对多个指标画散点图

当有多个指标的时候,需要画出两两指标的散点图,使用SPSS比较方便
通过每两个指标的散点图来查看是否是线性相关(即查看是否可以使用皮尔逊相关系数)

  • 在SPSS中的操作
    导入数据 --> 图形 --> 旧对话框 --> 散点图/点图 --> 矩阵散点图
    在这里插入图片描述
求皮尔逊相关系数
  • 在matlab操作 — corrcoef函数
[R,P] = corrcoef(A)

以A中的每一列为一组数据
R: 返回A的相关系数矩阵

P: 对于每个相关系数的 P P P
A的某列代表所以样本的某个指标
A的某行代表一个样本

corrcoef(A,B)

返回两个随机变量A B之间的系数

将相关系数可视化
  • 使用Excel
    在这里插入图片描述
    例如:在这里插入图片描述
对相关系数表进行显著性标注

1. matlab中:

  1. 求概率密度值
tpdf(x,n)

tpdf:求t分布在点x处,自由度为n 的概率密度值
x:为指定求从负无穷到x区间
n:为自由度
例如:

x = -4:0.1:4;
y = tpdf(x,28);
plot(x,y);

在这里插入图片描述
概率为概率密度图与x轴的面积

  1. 求p值(p为概率密度图中的面积)对应的x
x = tinv(p,n)

tinv: 代表t分布的 累计密度函数(cdf) 的反函数
p:为概率密度图中 从负无穷–>点x的 面积
n:为自由度
例如:

x = tinv(0.975,28)    % x = 2.0484

得到了对应的x
− ∞ → x -\infty \to x x,使得 t分布 自由度为28,p为0.975

  1. 求累计密度p
    即与x轴包围的面积
p = tcdf(x,n)

tcdf: 累计密度函数
p:为概率密度图中 从 − ∞ → x -\infty \to x x的 面积 — 即为概率
n:自由度

  1. 使用概率论与数理统计中的P值
    两种求法:
  • 法1
[R,P] = corrcoef(A)  % P为该处双侧检验的P值 
  • 法2
    当为单侧检验:
    ∴ \therefore P = 1 - tcdf(x,n)
    当为双侧检验:
    ∴ \therefore P = (1 - tcdf(x,n)) * 2
  1. 该P值需要与显著性水平进行比较
    1. 自行标记:
    拒绝 | 无法拒绝
    -------- | -----
    P < 0.01 说 明 在 99 % 置 信 水 平 上 拒 绝 原 假 设 P<0.01 说明在99\%置信水平上拒绝原假设 P<0.0199% | P > 0.01 说 明 在 99 % 置 信 水 平 上 无 法 拒 绝 原 假 设 P>0.01 说明在99\%置信水平上无法拒绝原假设 P>0.0199%
    P < 0.05 说 明 在 95 % 置 信 水 平 上 拒 绝 原 假 设 P<0.05 说明在95\%置信水平上拒绝原假设 P<0.0595% | P > 0.05 说 明 在 95 % 置 信 水 平 上 无 法 拒 绝 原 假 设 P>0.05 说明在95\%置信水平上无法拒绝原假设 P>0.0595%
    P < 0.10 说 明 在 90 % 置 信 水 平 上 拒 绝 原 假 设 P<0.10 说明在90\%置信水平上拒绝原假设 P<0.1090% | P > 0.10 说 明 在 90 % 置 信 水 平 上 无 法 拒 绝 原 假 设 P>0.10 说明在90\%置信水平上无法拒绝原假设 P>0.1090%
  • 对相关系数表进行标记
    P < 0.01 P<0.01 P<0.01 标注 ∗ ∗ ∗ ***
    P < 0.05 a n d P > 0.01 P<0.05 and P>0.01 P<0.05andP>0.01 标注 ∗ ∗ **
    P < 0.10 a n d P > 0.05 P<0.10 and P>0.05 P<0.10andP>0.05 标注 ∗ *

在这里插入图片描述

2. SPSS:

分析 -> 相关 -> 双变量
在这里插入图片描述

  • 双尾/单尾: 双侧检验/单侧检验
  • 标记显著性相关性: 进行显著性标记

在这里插入图片描述


参考资料:数学建模清风视频

猜你喜欢

转载自blog.csdn.net/qq_43779658/article/details/107748177