k均值聚类
缺点:只对样本聚类,不能对变量聚类 ;参数(聚类个数)需要提前指定
层次聚类
- 样本和变量都可以聚类,不局限于参数选择
- 将所有观测指标纳入系统
- 形成树形图
- 样本大时,计算慢
判别分析
- 自变量符合多元正态分布,不存在多重共线性
- 所有自变量在各组之间协方差矩阵相等
- 因变量确定且独立
- 自变量和因变量符合线性假设
都是研究分类的,在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉,当然要进行聚类分析,才能考虑判别分析问题。
判别分析
有Fisher判别,Bayes判别和逐步判别。一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。