浅尝辄止_数学建模(笔记_典型相关分析)

一、典型相关分析

典型相关分析是研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。


1.基本思想

  1. 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;
  2. 选取和最初挑选的这对线性组合不相关的线性组合,使其匹配,并选取相关系数最大的一对;
  3. 如此下去,直到两组变量之间的相关性被提取完毕为止
     
  • 被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
  • 典型相关系数(0~1)度量了这两组变量之间的强度。
  • 变量关系越强,其相关系数绝对值越接近于1;反之,变量关系越弱,其相关系数绝对值越接近0。

2.思路

假设有两组变量分别为:在这里插入图片描述
分别在两组变量中选取若干有代表性的综合变量 U i U_i V i V_i ,使得每一个综合变量是原变量的线性组合。在这里插入图片描述
注意:
1.综合变量的组数是不确定的,如果第一组就能代表原样本数据大部分的信息,那么一组就够了;
2.假设第一组反应的信息不够,那么需要寻找第二组,而且为了让第二组的信息更有效,需要保证两组信息不相关。【不相关: c o v ( U 1 , U 2 ) = c o v ( V 1 , V 2 ) = 0 cov(U_1,U_2) = cov(V_1,V_2) = 0


3.如何求第一对典型相关变量?

v a r ( U 1 ) = v a r ( V 1 ) = 1 var(U_1) = var(V_1) = 1 满足的条件下,找到a(1)和b(1)两组系数,使得 ρ = ( U 1 , V 1 ) ρ=(U_1,V_1) 最大。则a(1)'X(1)和b(1)'X(2)是X(1)、X(2)的第一对典型相关变量。
 
可以类似的求出各对之间互不相关的第二对、第三对等典型相关变量
 
问:
  为什么要保证方差为1?
答:

  1. 相关系数与量纲无关,即 ρ = ( U 1 , V 1 ) = ( a U 1 , b V 1 ) ρ=(U_1,V_1)=(aU_1,bV_1)
  2. 保证典型相关系数的唯一性

笔者只能提供些许思路,具体的数学过程,可以自行搜索资料。太难啦!俺哭了…


4.典型相关系数的显著性检验

4.1样本数据的检验假设(样本数据的有效性)

 因为,如果两个随机变量X(1)、X(2)互不相关,则两组变量协差阵 c o v cov (X(1),X(2)) =0。但是有可能得到的两组变量的样本协差阵不为0。因此,在用样本数据进行典型相关分析时,应就两组变量的协差阵是否为零进行检验。
百度百科 — 协方差矩阵

4.1.1步骤

  1. 选取原假设和备择假设
    H0:两组变量的协差阵为0(两组变量无关)
    H1:两组变量的协差阵不为0(两组变量有关)

  2. 根据随机向量的检验理论可知,用于检验的似然比统计量为在这里插入图片描述

  3. 计算出p值,p值小于0.5表示在95%的置信水平下拒绝原假设。

    对于第三步,还有其他的方法,暂且截图置于此,能理解最好,可待未来回顾
    在这里插入图片描述


4.2 对典型相关系数的检验假设(确定典型变量数量)

 若总体典型相关系数 λ k = 0 λ_k=0 ,则相应的典型变量 U k , V k U_k,V_k 之间无相关关系,因此对分析X(1)对X(2)的影响不起作用。这样的变量可以不予考虑,于是提出如何根据样本数据来判断总体典型相关系数是否为零,以便确定应该取几个典型变量的问题。

4.2.1步骤

  1. 选取原假设和备择假设
    在这里插入图片描述
  2. 根据随机向量的检验理论可知,用于检验的似然比统计量为在这里插入图片描述
  3. 选取 k k 值,从 k k =1开始,判断p值,直到有一个 K K 值使得p值小于0.5,表示在95%的置信水平下拒绝原假设。
  4. 结束检测,得到所需典型变量数量。

5.如何判断综合变量是否具有的代表性?

 通过检验各对典型相关变量系数的显著性,来反映每一个综合变量的代表性,如果某一对的相关程度不显著,那么这对变量就不具代表性,不具代表性的变量可以忽略。以求通过对少数典型相关变量的研究,抓住问题本质,解决实际问题。


二、运用SPSS计算相关数据

1.步骤

  1. 导入数据:文件 — 导入数据 — Excel —选取相应文档
    注意:调整数据属性(标度、有序和名义)
  2. 典型相关分析:分析 — 相关 — 典型相关性 — 把A类指标放入集合1,B类指标放入集合2

    注意:此对话框需要Python Essentials 的支持。如果需要,在python官网下载
  3. 导出文件:文件 — 导出
  4. 适当修改导出的Word文档

2.导出文件的数据分析

  • 有一个名为“典型相关性”的表格反映的是典型相关系数,可将其重新命名,并将表格中“相关性”改为“相关系数”。与此同时,也可将“显著性”改为“p值”。
  • 比较p值和显著性水平,确定所需典型变量个数,并且适合的p值对应的特征矩阵就是a(i)和b(i)两组系数。
  • “(非)标准化典型相关系数”实际上为(非)标准化典型相关变量对应的线性组合系数,建议修改命名。
  • 如果样本数据矩阵已经标准化处理,此时样本的协方差矩阵就等于样本的相关系数矩阵。(建议使用标准化的数据)

三、典型相关分析应用中的几个问题

1.从相关矩阵出发计算典型相关系数

  • 为了消除量纲和数量级别的影响,必须对数据先做标准化变换处理,然后再做典型相关分析。(经标准化变化之后的协差阵就是相关系数矩阵)
  • 典型荷载分析:进行典型荷载分析有助于更好的解释分析已提取的n对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间的相关分析。(有待未来补充,如果有读者想了解,可私信我。笔者必定熬夜学习,思考和整理)
  • 典型荷载分析能够反应典型变量和具体样本指标之间的相关性,判断出典型相关变量更能反映什么(SPSS导出文档中有数据)
  • 典型冗余分析:分析典型变量的解释力(参照SPSS导出文件中“已解释的方差比例”表格)

四、总结:典型相关分析的关键步骤

  1. 数据的分布有假设:假设两组数据服从联合正态分布
  2. 对两组变量的相关性进行检验,构造似然比统计量(非必须
  3. 确定典型相关变量的个数(SPSS导出文档中,比较p值)
  4. 利用标准化后的典型相关变量分析问题
  5. 进行典型荷载分析
  6. 计算前n个典型变量对样本总方差的贡献,即解释的方差比例(典型冗余分析)

五、他山之石

  1. 数学建模——典型相关分析及相关SPSS操作
  2. “2012年数学建模A题一等奖论文葡萄酒的评价”(推荐搜索、阅读)
  3. 医学统计SPSS典型相关性分析详细操作——【杏花开医学统计】

猜你喜欢

转载自blog.csdn.net/ICISTRUE/article/details/108151516