机器学习从入门到创业手记- 非监督学习总结报告

安逸的非监督学习总结报告:

 

 

K-means优点: 

  • K-Means理论简单,容易实现

K-Means缺点:

  • 聚类数目k是一个输入参数。选择不恰当的k值可能会导致糟糕的聚类结果。这也是为什么要进行特征检查来决定数据集的聚类数目了。
  • 收敛到局部最优解,可能导致“反直观”的错误结果。

 

 

自动编码优点: 

  • 理论简单,容易实现

自动编码缺点:

  • 新生成的主成分解释性差。

 

 

主成分分析法优点:

  • 可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好
  • 可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些
  • 主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。

主成分分析法缺点:

  • 在主成分分析中,首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)
  • 主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”
  • 当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确

 

猜你喜欢

转载自blog.csdn.net/yoki2009/article/details/88530881