关于监督式、无监督式算法以及强化算法的简单理解

看了一篇大神的解释,讲得很清楚,将网址附在下面:

https://medium.com/@machadogj/ml-basics-supervised-unsupervised-and-reinforcement-learning-b18108487c5a

谈谈我自己的理解:

   1).监督式算法:

    具有一个标准的本体,算法通过学习对数据进行预测,从而与本体进行比较。(我知道我想要得到什么)对数据,一部分数据用于训练模型,另一部分用于比较模型的正确率,有多少的匹配度就是多少的正确率。

  2).无监督式算法:

    不具有标准的本体,对于数据量庞大的数据集,我们想要找到其中隐藏的一些关系,则采用无监督式算法。需要将数据转化为一种有意义可比较的格式,最终得到的会是具有一定关系的集合。但是是否是我们想要的集合取决于我们自己。可以进行强制的删减某些数据以达到我们预期的特定分割。

  3).强化式算法:

   研究试图对强化学习模型进行逆向反馈以改进问题和技术的一种算法。是一种延时的机制。是一个连续做决策的过程,在一个过程中输入的数据的返回值会影响到下一个输入数据的返回值。算法定义了reward,由于自己能够察觉到signal并进行自己定义的action,算法需要将结果与reward进行比较,最终反馈以改进模型。RL没有被严格地监督,因为它不严格地依赖于受监督(或标记)数据集(训练集)。它实际上依赖于能够监控所采取行动的反应,并根据对奖励的定义来衡量。但这也不是没有监督的学习,因为我们知道,当我们对学习者进行建模时,这就是预期的回报。


猜你喜欢

转载自blog.csdn.net/weixin_42554580/article/details/81056403
今日推荐