因子分析

因子分析模型是主成分分析的推广。它也是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
因子分析的思想始于1904年Charles Spearman对学生考试成绩的研究。近年来，随着电子计算机的高速发展，人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域，也使得因子分析的理论和方法更加丰富。

（研究的是大家共有的因子，例如影响不同学科成绩的因子）

因子分析的基本思想是根据相关性大小把原始变量分组，使得同组内的变量之间相关性较高，而不同组的变量间的相关性则较低。每组变量代表一个基本结构，并用一个不可观测的综合变量表示，这个基本结构就称为公共因子。对于所研究的某一具体问题，原始变量就可以分解成两部分之和的形式，一部分是少数几个不可测的所谓公共因子的线性函数，另一部分是与公共因子无关的特殊因子。

设 $x_i(i=1,2...p)$ p个变量，如果表示为：

{\begin{cases} X_{1} = a_{11} F_{1} + a_{12} F_{2} + . . . + a_{1 m} F_{m} + ε_{1} \\ X_{2} = a_{21} F_{1} + a_{22} F_{2} + . . . + a_{2 m} F_{m} + ε_{2} \\ . . . \\ X_{p} = a_{p 1} F_{1} + a_{p 2} F_{2} + . . . + a_{p m} F_{m} + ε_{p} \end{cases}

$\begin{cases} X_1=a_{11}F_1+a_{12}F_2+...+a_{1m}F_m+\varepsilon_1 \\ X_2=a_{21}F_1+a_{22}F_2+...+a_{2m}F_m+\varepsilon_2 \\ ...\\ X_p=a_{p1}F_1+a_{p2}F_2+...+a_{pm}F_m+\varepsilon_p \end{cases}$
即

X_{i} = a_{i 1} F_{1} + a_{i 2} F_{2} + . . . + a_{i m} F_{m} + ε_{i} (m \leq p)

$X_i=a_{i1}F_1+a_{i2}F_2+...+a_{im}F_m+\varepsilon_i (m\leq p)$

$X=AF+\varepsilon$

称

data ex842;
input objects$ pop school employ services house@@;
cards;
/*数据省略*/
;
proc factor data=ex842 /*factor表示调用因子分析模块*/
method=principal rotate=varimax /*principal主成分法，rotate表示因子旋转，方差极大*/
percent=0.8 /*要求累计贡献率大于0.8*/
score outstat=ex1; /*计算因子得分*/
var pop school employ services house; /*对象*/
run;
proc score data=ex842 score=ex1 out=ex2;
var pop school employ services house; run;
proc print data=ex1; proc print data=ex2;
run;

这里写图片描述
结果表明，5个因子对应的特征值，特征值表示因子贡献率。通常确定因子个数时，要求因子累计贡献率大于80%。结果表明应选取2个因子，记为F1,F2 贡献率分别为57.47%、35.93%。

确定因子载荷阵系数，得到初始的特征向量：
这里写图片描述
x1=0.58096f1+0.80642f2+deta
由于对应实际问题，公共因子的实际意义不好解释。因此考虑将指标的系数极值化，即让系数趋于1或0，趋于1说明公共因子与该指标密切相关，否则趋于0时说明相关程度很低。由此，要做因子旋转实现系数的极值化。
因子旋转程序运行结果：
这里写图片描述
旋转目的，增加解读性。Orthogonal Transformation Matrix 表示因子旋转阵，
Rotated Factor Pattern 为旋转后得到的因子载荷。
Standardized Scoring Coefficients为因子得分系数结果。
得分系数

f1主要跟school，services，house有关（这里跟主成分类似）

根据得到的因子得分函数计算各个样本的因子得分
因子得分：
这里写图片描述
以上为12个样本的5个指标值，以及2个公共指标
的得分，因子F1中J地区的得分最高，说明该地区的
服务教育服务设施较好。因子F2中L地区的得分最高，
说明该地区的就业情况较好。
因子分析与主成分分析的区别与联系
因子分析、主成分分析都是重要的降维方法（数据简化技术），因
子分析可以看作是主成分分析的推广和发展。
主成分分析不能作为一个模型来描述，它只能作为一般的变量变
换，主成分是可观测的原始变量的线性组合；因子分析需要构造因子模
型，公共因子是潜在的不可观测的变量，一般不能表示为原始变量的线
性组合。
因子分析是用潜在的不可观测的变量和随机影响变量的线性组合
来表示原始变量，即通过这样的分解来分析原始变量的协方差结构（相
依关系）。

因子分析

因子分析

猜你喜欢