基于spss对因子分析中总方差解释与碎石图中的冲突

引入例题

收集到某年全国31个省市自治区各类经济单位包括国有经济单位、集体经济单位、联营经济单位、股份制经济单位、港澳台经济单位和其他经济单位的年人均收入数据,现希望对全国各地区年人均收入的差异性和相似性进行研究。具体数据在文件名为各地区平均收入.sav

我们使用spss进行因子分析,我们会得到:

         我们发现总方差解释中,第一个主成分就可以解释很大部分大部分数据方差,而碎石图中上拐点出现在第二个主成分,这就引起了冲突,这就引起了我们的思考,到底是使用第一个总方差解释的数据还是使用碎石图中的数据。

 然后查阅相关知识得出先结论:

        在因子分析或主成分分析中,总方差解释的特征值是每个主成分(或因子)所包含的方差。第一个主成分的特征值是解释了数据中最大方差的主成分,因此它通常是最大的。当第一个主成分解释了数据中很大一部分的方差时(例如你提供的情况下达到了76.6%),在碎石图中,你会看到从第一个主成分开始,方差解释的增长逐渐变缓,直到出现拐点。
        为什么在碎石图上拐点出现在第二个主成分?这是因为第一个主成分已经解释了大部分数据方差,导致第二个主成分所含方差相对较小。在拐点之后的主成分,方差解释的增长变得更加缓慢,这可能是因为数据中的噪音或随机性较大,导致额外的主成分并没有显著解释更多的方差。
拐点后的主成分通常包含较少的数据方差,这也解释了为什么在拐点之后的主成分对数据解释的贡献相对较小。
        综上所述,总方差解释的特征值中第一个成分能够解释较大部分的方差,导致拐点在碎石图中出现在第二个主成分,因为从第二个主成分开始,方差解释的增长逐渐变缓。这也是为什么在因子分析或主成分分析中,通常会选择拐点之后的主成分进行保留,以确保在降维时保留较多的数据重要信息并避免过度拟合。

 

猜你喜欢

转载自blog.csdn.net/m0_64857566/article/details/132039945