(第1部分)主成分分析的原理的简要讲解
原来多个变量划分为少数几个综合指标的一种统计分析方法。
1.矩阵标准化
2.计算标准化样本的协方差矩阵
3.计算R的特征值和特征向量,eig
4.单个,累加贡献
5.对应的特性向量作为系数和原来的指标进行线性组合。
6. 系数越大,影响越大。
主成分可用于聚类分析、回归分析。不可用于评价类模型。
(第2部分)(重要)主成分分析的应用
题目 1
解题 1
计算关键变量
6个特征值相加等于k,指标的个数。 (可能会存在四舍五入问题,所以结果为5.999)
前三个主成分相加的贡献率达到了85.9%,说明它们能很好的概括原始变量。
主成分的解释带模糊性。
题目 2
解题 2
matlab计算
得到相关系数矩阵R
相关系数进行可视化。行高列宽50.
条件格式–色阶
颜色越深,相关性越强
主成分分析用于聚类
只有指标存在很强的相关性时,才能用主成分聚类。
主成分回归 stata
原来建模,使用了逐步回归,也是会损失信息的。
主成分回归损失的信息比较少。
经过matlab计算之后
论文中要解释含义。
stata 回归结果
1.是否存在异方差,要检验一下。
2.F1,F2的p值 都是非常显著的。
3.F1含义:我们综合投入成分每增加一个单位,会对产量增加0.354
。。。。
关于主成分回归的看法
作业
直接回归
1.描述统计
2.回归
3.因为adj R方没有小于0.05 所以进行异方差检验。(BP检验或者怀特检验)
这里使用怀特检验
95%置信水平不能拒绝原假设,所以不存在异方差的影响。
4.没有继续检验,看是否存在多重共线性的英雄
所有的VIF<10,所以存在多重共线性。
逐步回归
取回归系数较大的变量进行逐步回归
回归模型,就是coef里给出的数据
主成分回归
F1 = …
F2 = …
缺少对2个主成分回归的结果。
对y进行标准化,然后再进行回归
egen newvar = std(oldvar)
egen new_y = std ( 工业总产值y )
把y对F1,F2进行回归。
查看回归系数coef,说明F1对工业总产值的影响比F2更大。