理解监督学习、无监督学习、半监督学习、强化学习

目录

监督学习

   回归问题

   分类问题

无监督学习

半监督学习

强化学习

参考链接


监督学习

        监督学习简单来说就是我们给学习算法一个数据集。 这个数据集由“正确答案”组成,然后使用已知正确答案的示例来训练网络,从而得到一个最优的模型。 

也就是说,在监督学习中训练数据既有特征(feature) 又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

        一般步骤:数据集的创建和分类----》训练----》验证----》应用

        经典算法:支持向量机、线性判别、决策树、朴素贝叶斯

        监督学习分为:回归问题  和  分类问题

   回归问题

        回归:我们在试着推测出一系列连续值属性
        回归问题:我们试着推测出一个连续值的结果,输出一个数值,针对连续型变量。简单来说:

        对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y

         举个栗子:预测房价。根据收集到的一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价,然后运用学习算法,算出更多的正确答案。比如预测购买的新房子的价格。

   分类问题

        与回归问题不同的是输出的内容不一样。在回归问题中机器输出的是一个数值,在分类问题里面机器输出的是类别,针对离散型变量。

无监督学习

        与监督学习相比,无监督学习更像是自学。所给的数据集是未加标签的数据,没有类别信息,也没有给定的目标值,需要根据聚类或一定的模型得到数据之间的关系。

        经典算法:聚类K-means算法(K均值算法),主成分分析PCA

半监督学习

        半监督学习在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。

强化学习

        强化学习,又称再励学习或者评价学习,目标就是获得最多的累计奖励

        强化学习采用的是边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得reward之后再更新模型,不断迭代重复直到模型收敛。

        个人理解就是:别想太多,先干起来,如果方向对了,就继续干;如果错了,就吸取经验,加以改正,通过不断的"试错"来学习积累

        即想要理解信息,获得输入到输出的映射,就需要从自身的以往经验中去不断学习来获取知识,从而不需要大量已标记的确定标签,只需要一个评价行为好坏的奖惩机制进行反馈,强化学习通过这样的反馈自己进行“学习”。(当前行为“好”以后就多往这个方向发展,如果“坏”就尽量避免这样的行为,即不是直接得到了标签,而是自己在实际中总结得到的)

        对于 强化学习和监督式学习的区别与强化学习和无监督式学习的区别 见参考链接③

参考链接

一文读懂监督学习、无监督学习、半监督学习、强化学习这四种深度学习方式

机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习_明月清风-程序员宅基地

李宏毅《深度学习》(一)

猜你喜欢

转载自blog.csdn.net/qq_38828370/article/details/118863453