matlab实例(三)主成分分析

利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体见下图

这里写图片描述

指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值,具体数值见下表/,其中: x 1 为每百万人口高等院校数; x 2 为每十万人口高等院校毕业生数; x 3 为每十万人口高等院校招生数; x 4 为每十万人口高等院校在校生数; x 5 为每十万人口高等院校教职工数; x 6 为每十万人口高等院校专职教师数; x 7 为高级职称占专职教师的比例; x 8 为平均每所高等院校的在校生数; x 9 为国家财政预算内普通高教经费占国内生产总值的比重; x 1 0 为生均教育经费

地区 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 1 0
1北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631
2上海 3.39 234 308 1035 498 161 35.02 3052 0.90 12665
3天津 2.35 157 229 713 295 109 38.40 3031 0.86 9385
4陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881
5辽宁 1.50 88 128 421 144 58 34.30 2808 0.54 7733
6吉林 1.67 86 120 370 153 58 33.53 2215 0.76 7480
7黑龙江 1.17 63 93 296 117 44 35.22 2528 0.58 8570
8湖北 1.05 67 92 297 115 43 32.89 2835 0.66 7262
9江苏 0.95 64 94 287 102 39 31.54 3008 0.39 7786
10广东 0.69 39 71 205 61 24 34.50 2988 0.37 11355
11四川 0.56 40 57 177 61 23 32.62 3149 0.55 7693
12山东 0.57 58 64 181 57 22 32.95 3202 0.28 6805
13甘肃 0.71 42 62 190 66 26 28.13 2657 0.73 7282
14湖南 0.74 42 61 194 61 24 33.06 2618 0.47 6477
15浙江 0.86 42 71 204 66 26 29.94 2363 0.25 7704
16新疆 1.29 47 73 265 114 46 25.93 2060 0.37 5719
17福建 1.04 53 71 218 63 26 29.01 2099 0.29 7106
18山西 0.85 53 65 218 76 30 25.63 2555 0.43 5580
19河北 0.81 43 66 188 61 23 29.82 2313 0.31 5704
20安徽 0.59 35 47 146 46 20 32.83 2488 0.33 5628
21云南 0.66 36 40 130 44 19 28.55 1974 0.48 9106
22江西 0.77 43 63 194 67 23 28.81 2515 0.34 4085
23海南 0.70 33 51 165 47 18 27.34 2344 0.28 7928
24内蒙古 0.84 43 48 171 65 29 27.65 2032 0.32 5581
25西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199
26河南 0.55 32 46 130 44 17 28.41 2341 0.30 5714
27广西 0.60 28 43 129 39 17 31.93 2146 0.24 5139
28宁夏 1.39 48 62 208 77 34 22.70 1500 0.42 5377
29贵州 0.64 23 32 93 37 16 28.12 1469 0.34 5415
30青海 1.48 38 46 151 63 30 17.87 1024 0.38 7368

题解步骤:

1. SPSS 进行因子分析

导入数据,分析——》降维——》因子分析,添加变量 x 1 x 1 0 ,设置描述和抽取,点击确定
这里写图片描述
球形度检验用于比较变量间简单相关系数和偏相关系数的指标
这里写图片描述
因子的固定数量即将多个变量固定为指定数量

2. 得到输出文档

这里写图片描述
第一个指标意味着变量间的相关性,取值为0~1,越接近 1,意味着变量间的相关性越强,原有变量越适合作因子分析;反之
第二个指标小于 0.05,可认为相关系数矩阵与单位阵有显著差异
综上,说明适合做分析

之前设置提取了 4 个因子,其总积累总和为 98.217%,意思是这 4 个因子包含了总共 10 个变量中 98.217% 的信息,一般包含 80% 以上即可
这里写图片描述
成分矩阵的含义是 x 1 =0.958*F1 - 0.248*F2 - 0.120*F3 - 0.460*F4 ; …. ; x 1 0 =0.672*F1 - 0.360*F2 + 0.632*F3 - 0.112*F4 ,即用 F(综合变量) 表示 X(原变量),是因子分析
而主成分分析是用 X 表示 F,要得到主成分分析结果,还需继续计算

3. 计算主成分系数

主成分系数 = 成分矩阵/sqrt(对应的特征值) sqrt() 求平方根

A = [.958   -.248   -.120   -.046   
.983    .043    -.079   -.103   
.992    .037    -.066   -.077   
.992    .017    -.083   -.073   
.987    -.064   -.112   -.020   
.986    -.081   -.120   -.001   
.614    .732    -.029   .037    
.329    .882    .262    .032    
.874    -.244   .088    .409    
.672    -.360   .632    -.112   ];
b = [7.502  1.577   .536   .206 ];
xs = [A(:,1)/sqrt(b(1)) A(:,2)/sqrt(b(2)) A(:,3)/sqrt(b(3)) A(:,4)/sqrt(b(4))]

这里写图片描述
即 F 1 = 0.3498 * Z x 1 + 0.3589 * Z x 2 + 0.3622 * Z x 3 + 0.3622 * Z x 4 + 0.3604 * Z x 5 + 0.3600 * Z x 6 + 0.2242 * Z x 7 + 0.1201 * Z x 8 + 0.3191 * Z x 9 + 0.2453 * Z x 1 0 ,F 2 = ….,F 3 = ….,F 4 = ….
其中 Z x i 为标准化后的数据
之所以要将数据标准化,是由于对于 x i 来说,各个变量度量不同,标准化后便于数据操作

4. 数据标准化

SPSS 分析-》描述统计-》描述,添加变量,勾选“将标准化得分另存为变量”,点击确定,SPSS 数据视图后多出 10 列,即为标准化数据

得到标准化数据

标准化数据

5. 计算 F i

即标准化系数*主成分系数

standard = [4.36850 3.90575 4.09086 4.13918 4.54007 4.57476 2.41198 .39539  4.15673 2.40560
1.98619 2.68687 2.38541 2.41873 2.09650 1.91573 .82993  1.13463 .87577  2.01738
1.02214 1.45196 1.50481 1.35746 .95090  1.04061 1.40245 1.09910 .77481  .69918
.09517  .23308  .18949  .20720  .13262  .18232  .05584  .53748  1.68339 .09474
.23421  .34535  .37899  .39507  .09876  .18232  .70797  .72187  -.03281 .03526
.39180  .31327  .28982  .22698  .14955  .18232  .57754  -.28126 .52243  -.06642
-.07169 -.05560 -.01115 -.01692 -.05361 -.05329 .86380  .24822  .06814  .37164
-.18292 .00855  -.02229 -.01362 -.06490 -.07012 .46914  .76755  .27005  -.15403
-.27562 -.03956 .00000  -.04658 -.13826 -.13744 .24047  1.06020 -.41138 .05656
-.51663 -.44051 -.25638 -.31684 -.36964 -.38988 .74185  1.02636 -.46186 1.49090
-.63714 -.42447 -.41243 -.40913 -.36964 -.40671 .42340  1.29871 -.00757 .01918
-.62787 -.13579 -.33440 -.39594 -.39221 -.42354 .47930  1.38837 -.68900 -.33769
-.49809 -.39239 -.35670 -.36628 -.34142 -.35622 -.33713 .46644  .44672  -.14599
-.47028 -.39239 -.36784 -.35310 -.36964 -.38988 .49793  .40046  -.20948 -.46951
-.35905 -.39239 -.25638 -.32014 -.34142 -.35622 -.03055 -.03090 -.76472 .02360
.03955  -.31220 -.23408 -.11909 -.07054 -.01963 -.70978 -.54346 -.46186 -.77415
-.19219 -.21598 -.25638 -.27400 -.35835 -.35622 -.18807 -.47749 -.66376 -.21673
-.36832 -.21598 -.32326 -.27400 -.28499 -.28890 -.76059 .29389  -.31043 -.83001
-.40540 -.37635 -.31211 -.37287 -.36964 -.40671 -.05087 -.11548 -.61329 -.78017
-.60933 -.50466 -.52390 -.51130 -.45429 -.45720 .45898  .18055  -.56281 -.81072
-.54444 -.48862 -.60192 -.56403 -.46558 -.47402 -.26599 -.68894 -.18424 .58705
-.44247 -.37635 -.34555 -.35310 -.33578 -.40671 -.22195 .22623  -.53757 -1.43083
-.50736 -.53673 -.47931 -.44868 -.44865 -.49085 -.47095 -.06304 -.68900 .11363
-.37759 -.37635 -.51275 -.42890 -.34707 -.30573 -.41844 -.59083 -.58805 -.82961
.41034  -.64900 -.54619 -.54096 -.29063 -.23841 -3.05236    -2.65799    1.12815 2.63387
-.64641 -.55277 -.53504 -.56403 -.46558 -.50768 -.28970 -.06812 -.63853 -.77616
-.60006 -.61692 -.56848 -.56733 -.49379 -.50768 .30653  -.39798 -.78996 -1.00724
.13225  -.29617 -.35670 -.30696 -.27935 -.22159 -1.25689    -1.49077    -.33567 -.91159
-.56298 -.69711 -.69110 -.68598 -.50508 -.52451 -.33883 -1.54321    -.53757 -.89632
.21568  -.45654 -.53504 -.49482 -.35835 -.28890 -2.07502    -2.29598    -.43662 -.11143];
F = standard * xs


6. 计算权重

权重 λ i = 对应的方差贡献率/累计方差贡献率,

即 λ 1 = 75.022 75.022 + 15.770 + 5.362 + 2.064 ,λ 2 = 15.770 75.022 + 15.770 + 5.362 + 2.064 ,λ 3 = 5.362 75.022 + 15.770 + 5.362 + 2.064 ,λ 4 = 2.064 75.022 + 15.770 + 5.362 + 2.064

total = [75.022 
15.770  
5.362   
2.064   
];
qz = [total(1)/sum(total) total(2)/sum(total) total(3)/sum(total) total(4)/sum(total)] 

7. 计算综合统计量

F = i = 1 n F i · λ i

ans = F * qz'  % 由于之前算的权重是 1x4 矩阵,为了方便乘转置一下


即最终结果为:

地区 F
北京 8.760464079
上海 4.555049871
天津 2.838731317
陕西 0.826623555
辽宁 0.775890666
吉林 0.599084661
黑龙江 0.302482506
湖北 0.249952983
江苏 0.059128008
广东 0.00590087
四川 -0.272848119
山东 -0.371078195
甘肃 -0.49677769
湖南 -0.515672195
浙江 -0.714317127
新疆 -0.756274411
福建 -0.783665224
山西 -0.810940237
河北 -0.905676323
安徽 -0.907877554
云南 -0.973003914
江西 -0.978445018
海南 -1.033071037
内蒙古 -1.145000044
西藏 -1.16778589
河南 -1.227823806
广西 -1.247185179
宁夏 -1.27402083
贵州 -1.681382883
青海 -1.710459255

猜你喜欢

转载自blog.csdn.net/liyuanyue2017/article/details/82218632