入门机器学习(二)

非监督学习

听到名字就觉得很厉害,毕竟即使面临高考的高中生,也还是需要在老师的监督下,才能顺利完成中学学业。


那么派给计算机这种艰难的人性化任务,他能够做到吗?
首先,回忆下前文的监督类学习,在给计算机训练样本的同时,也递交给他一个小标签,那个标签写着这个样本属于哪个目标。
非监督学习就不会给计算机递交这个标签了,你只需要给计算机一堆的数据,比如,你把一堆的小猫小狗小猪的图片乱序打包,一起交给计算机,让他自己分类
难吗?难。
可以实现吗?可以。

聚类

计算机有很强大的运算系统,他能够高效高速完成很多复杂运算。这么一堆无序的图片,在经过计算机高维数据降维后,都会变成这种样子:

这里写图片描述

当数据分布变成这种样子,我们就需要做分类了,可以尝试性开始分几类,甚至原始中心设置随机值,你告诉计算机两个指标:

  • 类间差异尽量大;
  • 类内尽量相似。

这个怎么理解呢?你试图分了几类,然后把每类的数据,归属给该类。
类中间,大家尽量的比较相似;
类之间,需要有很大的差异分割。
不然,怎么叫不同的类别呢。
类间差异类内差异可以这样描述:方差。毕竟属于同一类的,方差比较小。
代表该类的特征,可以通过均值表述。

那接下来,就是在不断的迭代中,寻找多个均值和方差,力求达到那两个目标。
这件事情对计算机来说,并不难。就算CPU不够,还可以调动强大的GPU协助。

至于如何把一堆图片转换成类似上图这种简洁格式,那就是所谓的非线性化处理了。

猜你喜欢

转载自blog.csdn.net/weixin_39437164/article/details/82663071