强化学习浅入理解

看了一些博客和莫烦老师的视频讲解,对强化学习有了一个比较形象的理解。
莫烦视频讲解
博客参考
在机器学习中,可以分为以下3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习(Reinforcement Learning),结构图如下所示:
三者关系
在强化学习中,有一个特定的环境(environment),不同环境下有不同的动作(action),不同动作有不同的奖励(reward),那么不同动作也会产生不同的下一时刻状态(state)。强化学习是以奖励为引导,为了获取更大的奖励而做出的不断学习不断尝试。

RL与有监督学习、无监督学习的比较:

(1)有监督的学习是从一个已经标记的训练集中进行学习,训练集中每一个样本的特征可以视为是对该state的描述,而其 label 可以视为是应该执行的正确的action,但是有监督的学习不能学习交互的情景,因为在交互的问题中获得期望行为的样例是非常不实际的,agent只能从自己采取一系列行为的经历(experience)中进行学习,而experience中采取的行为并一定是最优的。这时利用RL就非常合适,因为RL不是利用正确的行为来指导,而是利用已有的训练信息来对行为进行评价。
  (2)因为RL利用的并不是采取正确行动的experience,从这一点来看和无监督的学习确实有点像,但是还是不一样的,无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构,而RL的目的是最大化 reward signal。
  (3)总的来说,RL与其他机器学习算法不同的地方在于:其中没有监督者,只有一个reward信号;反馈是延迟的,不是立即生成的;时间在RL中具有重要的意义;agent的行为会影响之后一系列的data。
  
RL采用的是边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得reward之后再更新模型,不断迭代重复直到模型收敛。在这个过程中,非常重要的一点在于“在已有当前模型的情况下,如何选择下一步的行动能对完善当前的模型最有利”,RL非常像是“trial-and-error learning”,在尝试和试验中发现好的policy。就比如下图中的曲线代表函数f(x) ,在找到f(x)函数最大值这个环境(environment)中,是应该向左还是向右(action),通过得到的函数值作为奖励(reward),在不断的学习过程中,找到最大的函数值。
在这里插入图片描述

发布了11 篇原创文章 · 获赞 6 · 访问量 608

猜你喜欢

转载自blog.csdn.net/qq_35896136/article/details/104362827