数据挖掘入门——分类和聚类的区别

以下采用两个拟人化的举例来说明分类和聚类的区别

【分类】当人出生时,对周围世界都不了解,当他看到四个轮子体型较大的交通工具,别人告诉他长成这样的叫车,他下次再看到有长着四个轮字的代步工具时,就会将其判断为车。当这个人的见识不断增长时,他对于事物的判断准确率就越高。(比如不会将照片上的玩具车和汽车相混淆)

代入到实际操作中就是:

现在有一堆物品:可乐、钻石、汽车(相关数据记录了它们的特征:成分、包装大小、价格等),如果是做分类,会事先给计算机一批示例数据,告诉它可乐中含有碳酸,钻石很贵,汽车最大等信息,机器就学习了这些“知识”,那么将新的数据输入计算机中时(只有相关数据并不知道它们分别属于可乐、钻石还是汽车),计算机就会根据前面学习到的规则来给这些新数据进行分类。其中,示例数据就叫训练集,新数据就叫测试集。最后计算机根据测试集的分类结果判断预测的准确率,不断迭代优化。

【聚类】还是以一个新出生的婴儿(不了解任何知识但有行动能力、判断大小的基本能力)举例,我们、别人给他一堆大小、重量各异的物品去分类,但是没人告诉他该怎么去分,这时他会根据自己的判断,将大小、重量一致的放在一起。

代入到实际操作中就是:

还是有一堆物品:可乐、钻石、汽车,但是我们事先给计算机示例数据,它并不知道现有的分类规则与结果,直接输入新数据,让计算机自动根据它们的特征归类,这时计算机就会把大小接近、价格差不多、成分类似的物品放在一起。

综上,分类和聚类最本质的区别就是事先有无给规则(即有无标准)。

猜你喜欢

转载自blog.csdn.net/weixin_42747054/article/details/81130358