强化学习浅入理解

看了一些博客和莫烦老师的视频讲解，对强化学习有了一个比较形象的理解。
莫烦视频讲解
 博客参考
在机器学习中，可以分为以下3种：有监督的学习（Supervised Learning）、无监督的学习（Unsupervised Learning）和强化学习（Reinforcement Learning），结构图如下所示：
三者关系
在强化学习中，有一个特定的环境（environment），不同环境下有不同的动作（action），不同动作有不同的奖励（reward），那么不同动作也会产生不同的下一时刻状态（state）。强化学习是以奖励为引导，为了获取更大的奖励而做出的不断学习不断尝试。

RL与有监督学习、无监督学习的比较：

（1）有监督的学习是从一个已经标记的训练集中进行学习，训练集中每一个样本的特征可以视为是对该state的描述，而其 label 可以视为是应该执行的正确的action，但是有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent只能从自己采取一系列行为的经历（experience）中进行学习，而experience中采取的行为并一定是最优的。这时利用RL就非常合适，因为RL不是利用正确的行为来指导，而是利用已有的训练信息来对行为进行评价。
　　（2）因为RL利用的并不是采取正确行动的experience，从这一点来看和无监督的学习确实有点像，但是还是不一样的，无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化 reward signal。
　　（3）总的来说，RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个reward信号；反馈是延迟的，不是立即生成的；时间在RL中具有重要的意义；agent的行为会影响之后一系列的data。
　　
RL采用的是边获得样例边学习的方式，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得reward之后再更新模型，不断迭代重复直到模型收敛。在这个过程中，非常重要的一点在于“在已有当前模型的情况下，如何选择下一步的行动能对完善当前的模型最有利”，RL非常像是“trial-and-error learning”，在尝试和试验中发现好的policy。就比如下图中的曲线代表函数f(x) ，在找到f(x)函数最大值这个环境(environment)中，是应该向左还是向右（action），通过得到的函数值作为奖励（reward），在不断的学习过程中，找到最大的函数值。
在这里插入图片描述

谁偷了我的酒窝

发布了11 篇原创文章 · 获赞 6 · 访问量 608

私信关注

强化学习浅入理解

RL与有监督学习、无监督学习的比较：

猜你喜欢