文章目录
一、典型相关分析
典型相关分析是研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。
1.基本思想
- 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;
- 选取和最初挑选的这对线性组合不相关的线性组合,使其匹配,并选取相关系数最大的一对;
- 如此下去,直到两组变量之间的相关性被提取完毕为止
- 被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
- 典型相关系数(0~1)度量了这两组变量之间的强度。
- 变量关系越强,其相关系数绝对值越接近于1;反之,变量关系越弱,其相关系数绝对值越接近0。
2.思路
假设有两组变量分别为:
分别在两组变量中选取若干有代表性的综合变量
和
,使得每一个综合变量是原变量的线性组合。
注意:
1.综合变量的组数是不确定的,如果第一组就能代表原样本数据大部分的信息,那么一组就够了;
2.假设第一组反应的信息不够,那么需要寻找第二组,而且为了让第二组的信息更有效,需要保证两组信息不相关。【不相关:
】
3.如何求第一对典型相关变量?
在
满足的条件下,找到a(1)和b(1)两组系数,使得
最大。则a(1)'X(1)和b(1)'X(2)是X(1)、X(2)的第一对典型相关变量。
可以类似的求出各对之间互不相关的第二对、第三对等典型相关变量
问:
为什么要保证方差为1?
答:
- 相关系数与量纲无关,即
- 保证典型相关系数的唯一性
笔者只能提供些许思路,具体的数学过程,可以自行搜索资料。太难啦!俺哭了…
4.典型相关系数的显著性检验
4.1样本数据的检验假设(样本数据的有效性)
因为,如果两个随机变量X(1)、X(2)互不相关,则两组变量协差阵
(X(1),X(2)) =0。但是有可能得到的两组变量的样本协差阵不为0。因此,在用样本数据进行典型相关分析时,应就两组变量的协差阵是否为零进行检验。
百度百科 — 协方差矩阵
4.1.1步骤
-
选取原假设和备择假设
H0:两组变量的协差阵为0(两组变量无关)
H1:两组变量的协差阵不为0(两组变量有关) -
根据随机向量的检验理论可知,用于检验的似然比统计量为
-
计算出p值,p值小于0.5表示在95%的置信水平下拒绝原假设。
对于第三步,还有其他的方法,暂且截图置于此,能理解最好,可待未来回顾
4.2 对典型相关系数的检验假设(确定典型变量数量)
若总体典型相关系数 ,则相应的典型变量 之间无相关关系,因此对分析X(1)对X(2)的影响不起作用。这样的变量可以不予考虑,于是提出如何根据样本数据来判断总体典型相关系数是否为零,以便确定应该取几个典型变量的问题。
4.2.1步骤
- 选取原假设和备择假设
- 根据随机向量的检验理论可知,用于检验的似然比统计量为
- 选取 值,从 =1开始,判断p值,直到有一个 值使得p值小于0.5,表示在95%的置信水平下拒绝原假设。
- 结束检测,得到所需典型变量数量。
5.如何判断综合变量是否具有的代表性?
通过检验各对典型相关变量系数的显著性,来反映每一个综合变量的代表性,如果某一对的相关程度不显著,那么这对变量就不具代表性,不具代表性的变量可以忽略。以求通过对少数典型相关变量的研究,抓住问题本质,解决实际问题。
二、运用SPSS计算相关数据
1.步骤
- 导入数据:文件 — 导入数据 — Excel —选取相应文档
注意:调整数据属性(标度、有序和名义) - 典型相关分析:分析 — 相关 — 典型相关性 — 把A类指标放入集合1,B类指标放入集合2
注意:此对话框需要Python Essentials 的支持。如果需要,在python官网下载 - 导出文件:文件 — 导出
- 适当修改导出的Word文档
2.导出文件的数据分析
- 有一个名为“典型相关性”的表格反映的是典型相关系数,可将其重新命名,并将表格中“相关性”改为“相关系数”。与此同时,也可将“显著性”改为“p值”。
- 比较p值和显著性水平,确定所需典型变量个数,并且适合的p值对应的特征矩阵就是a(i)和b(i)两组系数。
- “(非)标准化典型相关系数”实际上为(非)标准化典型相关变量对应的线性组合系数,建议修改命名。
- 如果样本数据矩阵已经标准化处理,此时样本的协方差矩阵就等于样本的相关系数矩阵。(建议使用标准化的数据)
三、典型相关分析应用中的几个问题
1.从相关矩阵出发计算典型相关系数
- 为了消除量纲和数量级别的影响,必须对数据先做标准化变换处理,然后再做典型相关分析。(经标准化变化之后的协差阵就是相关系数矩阵)
- 典型荷载分析:进行典型荷载分析有助于更好的解释分析已提取的n对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间的相关分析。(有待未来补充,如果有读者想了解,可私信我。笔者必定熬夜学习,思考和整理)
- 典型荷载分析能够反应典型变量和具体样本指标之间的相关性,判断出典型相关变量更能反映什么(SPSS导出文档中有数据)
- 典型冗余分析:分析典型变量的解释力(参照SPSS导出文件中“已解释的方差比例”表格)
四、总结:典型相关分析的关键步骤
- 数据的分布有假设:假设两组数据服从联合正态分布
- 对两组变量的相关性进行检验,构造似然比统计量(非必须)
- 确定典型相关变量的个数(SPSS导出文档中,比较p值)
- 利用标准化后的典型相关变量分析问题
- 进行典型荷载分析
- 计算前n个典型变量对样本总方差的贡献,即解释的方差比例(典型冗余分析)
五、他山之石
- 数学建模——典型相关分析及相关SPSS操作
- “2012年数学建模A题一等奖论文葡萄酒的评价”(推荐搜索、阅读)
- 医学统计SPSS典型相关性分析详细操作——【杏花开医学统计】