Week One - 3. Andrew Ng - 非监督学习

在前面的监督学习中,已获取的数据集中包含正确答案,因此计算机可以通过学习来发现数据和正确答案之间的关系,进而进行预测。接下来,我们要计算机学习那些为赋予正确答案的数据。

这里写图片描述

在上图中,我们对于数据的类别一无所知,现在只有x1和x2两个特征,对于无监督算法,我们能做的就是聚类。
这里写图片描述

情景一:

谷歌新闻每天都会收集成千上万的新闻,然后将他们聚合称为不同的类别,形成新闻专题。

这里写图片描述

情景二:

拿来一些不同的个体和他们的基因,检测它们是否拥有某个特定的基因,这时可以运行聚类算法,将类似的个体聚合起来,就能显示出有多少种特定的基因存在。

这里写图片描述

情景三:

管理大型计算机集群,管理人员希望知道那些更适合于协作的机器,然后把这些机器放在一起,就能有效提高系统的运行效率和稳定性。

这里写图片描述

情景四:

社交网络分析, 分析你的哪些朋友属于最亲密的朋友组,哪些仅仅是认识的朋友等等

这里写图片描述

情景五:

市场分割,许多公司拥有庞大的客户信息数据库,如果给你一个客户数据集,你能否自动找出不同的市场分割,例如高消费群体,低消费群体等等

这里写图片描述

情景六:

天文数据分析,通过聚类算法发现星系如何诞生等等

这里写图片描述

情景七

鸡尾酒会上大家在同时相互交谈,整个环境的声音嘈杂,在这种情况下你可能会听不清楚坐在你对面的人在讲什么,无监督算法会设法从嘈杂的环境当中提取出你对面人说的内容。

这里写图片描述

这个例子听起来有些难度,实际上只需要一行代码就够( Octave

这里写图片描述

其中svd表示奇异值分解来求解线性方程。 实际上在硅谷,都是先用Octave做机器学习原型进行测试,然后再迁移到Java/Python这样的平台上去的。

总结

无监督学习:一种能够从已知数据中发现结构信息的学习方式

小测验:

下面那些例子是非监督学习?
a. 在邮件已经分类的基础上,训练一个垃圾邮件分类器
b. 给一些文章进行聚合,是类似的出现在同一组中 √
c. 在消费者数据库的基础上,做市场细分 √
d. 在已知病人是否是糖尿病的基础上,训练一个糖尿病的分类器

猜你喜欢

转载自blog.csdn.net/ZenG_xiangt/article/details/81879462