机器学习_监督学习、非监督学习、半监督学习以及强化学习概念介绍

机器学习中通常根据数据是否有标签可以分为监督学习(supervised learning)、非监督学习(unsupervised learning)半监督学习(semi-supervised learning)。如果需要算法与环境交互获得数据则是强化学习(reinforcement learning)

一.监督学习

监督学习的意思就是用来训练网络的数据,我们已经知道其对应的输出,这个输出可以是一个类别标签,也可以是一个或者多个值。模型经过训练以后,遇到新来的数据,可以预测对应的标签或者值。

监督学习是最常见的应用,已知标签的分类和回归问题都属于监督学习。

二.非监督学习

非监督学习则是并不知道数据的标签,而是根据数据本身的特性,从数据中根据某种度量学习出一些特性。

比如想象一个人从来没有见过猫和狗,如果给他看了大量的猫和狗,虽然他还是没有猫和狗的概念,但是他是能够观察出每个物种的共性和两个物种间的区别的,并对这个两种动物予以区分。

在这里插入图片描述如上如图所示,a表示的是监督学习的样本,可以看到样本根据类别不同而表示成不同的形状,算法学习的时候根据标签对空间区域进行划分。b表示的是没有标签的样本,虽然没有标签但是也能很明显看出有三个集中的"",每个"簇"中的样本互相靠得更近一些。这种情况下对样本的划分通常被称为聚类(clustering),常见的方法有k-means,混合高斯模型(GMM,Gaussian Mixture Model)等。广义来说,只要是无需人工标注就能从数据中提取出特征,都算是无监督学习。

无监督学习通常被认为能够更好地从数据本身分布中挖掘出特征,并且对于数量不是很大的数据集还能防止过拟合。

三.半监督学习

在实际应用中,还有比较常见的情况是部分数据有标签,部分没有,把这两种数据都利用起来称为半监督学习(semi-supervised learning)

在大数据的驱使下,还有一种概念叫弱监督学习(weakly supervised learning),是指用弱一些的标注来帮助训练一个更强条件下的算法。比如图片分类,有标注的数据虽然好,但是耗费人力去标注,获取成本高。但是没有标注的数据,或是一些不严格标注的数据,比如用户传图片时贴的标签,相对获取成本就低很多。后者就是一种弱监督的数据,可能包含噪声,多重标注,或是信息缺失等问题。但使用得当的话,结合前者能带来更大的数据量和更好的泛化。

四.强化学习

强化学习(reinforcement learning)在机器学习中是一个比较另类的分支,随着AlphaGo战胜李世石,强化学习开始跃入大众视野并一下子吸引了很多人的兴趣。强化学习的思想借鉴了很多动物和环境交互学习的行为。强化学习中算法本身有一个状态(state),算法借助一个**代理(agent)环境(environment)交互,交互的结果以奖惩(reward)**的形式返回并作用于算法本身。

代理通过当前的状态产生一个行动,这个行为和环境交互后会让代理处于一个新的状态,并且同时反馈给代理一个奖惩的分数。这个分数相当于对行为的一种评价,和我们为算法设置的目的有关。如果定义好的行为得到正分数,不好的行为得到负分数,则反馈作用于算法改进后,再通过代理产生下一个可能让奖惩分数提高的行为。这个过程一直持续,算法就会在这个不断试探的过程中越变越好。

举个例子:比如用强化学习训练一辆小车不会撞墙或者障碍物,小车就是代理,小车所在的有障碍物的房间的地面就是环境。小车的状态就是当前的位置,以及当前位置能获得的信息,比如传感器得到的距离信息,或者摄像头看到的画面。根据当前状态和算法策略,每次小车做出任何一个方向前进的行为后,如果没有撞墙,则得到一个小的奖励分数,如果撞到了墙,则得到一个较大的惩罚负分。这样就实现了学习的过程。

因为强化学习的行为都会对应一个奖惩,所以常常有人拿强化学习和监督学习进行比较。的确强化学习得这种特性在某种程度上相当于从环境中获得了对数据的标注,但这两种类型的算法还是有很大不同的。首先强化学习的目标和监督学习不一样,强化学习看重的是行为序列下的长期收益,而监督学习往往关注的是和标签或已知输出的误差。强化学习得奖惩概念是没有正确或错误之分的,而监督学习标签就是正确的。强化学习是一个学习+决策的过程,并有和环境交互的能力,这都是监督学习不具备的。

目前强化学习主要用于机器人、游戏等和环境交互比较多的领域。

发布了94 篇原创文章 · 获赞 37 · 访问量 3427

猜你喜欢

转载自blog.csdn.net/Rocky6688/article/details/103755065