有监督学习、无监督学习、半监督学习、强化学习

基本概念


1 特征(feature) 
数据的特征。

举例:书的内容

2 标签(label) 
数据的标签。

举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。

3 学习(learning) 
将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。

举例:把很多书交给一个学生,培养他给书本分类的能力。

4 分类(classification) 
定性输出称为分类,或者说是离散变量预测。

举例:预测明天是阴、晴还是雨,就是一个分类任务。

5 回归(regression) 
定量输出称为回归,或者说是连续变量预测;

举例:预测明天的气温是多少度,这是一个回归任务;

6 聚类(clustering) 
无监督学习的结果。聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异。
 

以机器学习中的分类(classification)来说,输入的训练数据有特征(feature),有标签(label)。

1.有监督学习(supervised learning)

在分类过程中,如果所有训练数据都有标签,则为有监督学习,用于分类或者回归。

举例:不仅把书给学生进行训练给书本分类的能力,而且把分类的结果(哪本书属于哪些类别)也给了学生做标准参考。

典型的例子就是KNN、SVM。

KNN算法:http://www.omegaxyz.com/2018/01/08/knn/?hilite=%27KNN%E7%AE%97%E6%B3%95%27

SVM算法:http://www.omegaxyz.com/tag/svm/

2.无监督学习(unsupervised learning)

如果数据没有标签,显然就是无监督学习了,也即聚类(clustering)。

举例:只给学生进行未分类的书本进行训练,不给标准参考,学生只能自己分析哪些书比较像,根据相同与相似点列出清单,说明哪些书比较可能是同一类别的。 

型的例子就是聚类了。

k-means聚类算法:http://www.omegaxyz.com/2018/01/27/kmeans/?hilite=%27%E8%81%9A%E7%B1%BB%27

还有 自编码(Autoencoding)、主成分分析(Principal components analysis)、随机森林(Random forests)也属于无监督学习的技术。如果你想要了解有关无监督学习的更多信息,可以观看Udacity的课程。

3.半监督学习(semi-supervised learning)

其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常远远大于有标签数据数量(这也是符合现实情况的)。 
隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。

可以用来 分类、回归、聚类、降维。

举例:给学生很多未分类的书本与少量的清单,清单上说明哪些书属于同一类别。

从不同的学习场景看,SSL可分为四大类:

3.1 半监督分类 
半监督分类(Semi-Supervised Classification):是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签 取有限离散值。

3.2 半监督回归 
半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。

3.3 半监督聚类 
半监督聚类(Semi-Supervised Clustering):在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度。

3.4 半监督降维 
半监督降维(Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-Wise Constraints)的结构不变,即在高维空间中满足正约束(Must-Link Constraints)的样例在低维空间中相距很近,在高维空间中满足负约束(Cannot-Link Constraints)的样例在低维空间中距离很远。

4.强化学习

强化学习是针对你再次没有标注数据集的情况而言的,但你还是有办法来区分是否越来越接近目标(回报函数(reward function))。经典的儿童游戏——“hotter or colder”。(Huckle Buckle Beanstalk的一个变体)是这个概念的一个很好的例证。你的任务是找到一个隐藏的目标物件,然后你的朋友会喊出你是否越来越hotter(更接近)或colder(远离)目标物件。“Hotter/colder”就是回报函数,而算法的目标就是最大化回报函数。你可以把回报函数当做是一种延迟和稀疏的标签数据形式:而不是在每个数据点中获得特定的“right/wrong”答案,你会得到一个延迟的反应,而它只会提示你是否在朝着目标方向前进。

DeepMind在Nature上发表了一篇文章,描述了一个将强化学习与深度学习结合起来的系统,该系统学会该如何去玩一套Atari视频游戏,一些取得了巨大成功(如Breakout),而另一些就没那么幸运了(如Montezuma’s Revenge(蒙特祖玛的复仇))。

Nervana团队(现在在英特尔)发表了一个很好的解惑性博客文章,对这些技术进行了详细介绍,大家有兴趣可以阅读一番。

Russell Kaplan,Christopher Sauer和Alexander Sosa举办的一个非常有创意的斯坦福学生项目说明了强化学习的挑战之一,并提出了一个聪明的解决方案。正如你在DeepMind论文中看到的那样,算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢?正如斯坦福大学生所描述的那样,“在稀缺回报函数的环境中,强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时,你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。可以点击算法视频观看算法演示。

因此,learning家族的整体构造是这样的: 
有监督学习(分类,回归) 
↕ 
半监督学习(分类,回归),transductive learning(分类,回归) 
↕ 
半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy) 
↕ 
无监督学习(聚类)

 

参考文献:

https://baijiahao.baidu.com/s?id=1569900296347229&wfr=spider&for=pc

https://blog.csdn.net/haishu_zheng/article/details/77927525

https://blog.csdn.net/xyisv/article/details/79263243

猜你喜欢

转载自blog.csdn.net/weixin_41036461/article/details/88383529