基于spss对因子分析中总方差解释与碎石图中的冲突

引入例题

收集到某年全国31个省市自治区各类经济单位包括国有经济单位、集体经济单位、联营经济单位、股份制经济单位、港澳台经济单位和其他经济单位的年人均收入数据，现希望对全国各地区年人均收入的差异性和相似性进行研究。具体数据在文件名为“各地区平均收入.sav”。

我们使用spss进行因子分析，我们会得到：

我们发现总方差解释中，第一个主成分就可以解释很大部分大部分数据方差，而碎石图中上拐点出现在第二个主成分，这就引起了冲突，这就引起了我们的思考，到底是使用第一个总方差解释的数据还是使用碎石图中的数据。

然后查阅相关知识得出先结论：

        在因子分析或主成分分析中，总方差解释的特征值是每个主成分（或因子）所包含的方差。第一个主成分的特征值是解释了数据中最大方差的主成分，因此它通常是最大的。当第一个主成分解释了数据中很大一部分的方差时（例如你提供的情况下达到了76.6%），在碎石图中，你会看到从第一个主成分开始，方差解释的增长逐渐变缓，直到出现拐点。
        为什么在碎石图上拐点出现在第二个主成分？这是因为第一个主成分已经解释了大部分数据方差，导致第二个主成分所含方差相对较小。在拐点之后的主成分，方差解释的增长变得更加缓慢，这可能是因为数据中的噪音或随机性较大，导致额外的主成分并没有显著解释更多的方差。
拐点后的主成分通常包含较少的数据方差，这也解释了为什么在拐点之后的主成分对数据解释的贡献相对较小。
        综上所述，总方差解释的特征值中第一个成分能够解释较大部分的方差，导致拐点在碎石图中出现在第二个主成分，因为从第二个主成分开始，方差解释的增长逐渐变缓。这也是为什么在因子分析或主成分分析中，通常会选择拐点之后的主成分进行保留，以确保在降维时保留较多的数据重要信息并避免过度拟合。

基于spss对因子分析中总方差解释与碎石图中的冲突

猜你喜欢