强化学习(二)

今天的组会补充了关于强化学习相关的内容,和上次的内容结合起来,就相对完整了。

机器学习中,对“从例子中学习“的方法的进行分类,有三个:监督学习、非监督学习和强化学习。

其中,强化学习是一个SequentialDecision Making问题,它需要连续选择一些行为,从而这些行为完成后得到最大的收益最好的结果。它在没有任何label告诉算法应该怎么做的情况下,通过先尝试做出一些行为得到一个结果,通过判断这个结果是对还是错来对之前的行为进行反馈,然后由这个反馈来调整之前的行为,通过不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

       从这一点来看,强化学习和监督学习还是有一些差别的,首先监督学习是有一个label的,这个label告诉算法什么样的输入对应着什么样的输出,而强化学习没有label告诉它在某种情况下应该做出什么样的行为,只有一个做出一系列行为后最终反馈回来的rewardsignal,这个signal能判断当前选择的行为是好是坏。

其次强化学习的结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏,而监督学习做了比较坏的选择会立刻反馈给算法。强化学习面对的输入总是在变化,输入不像监督学习是独立同分布的。而每当算法做出一个行为,它影响了下一次决策的输入。一定程度上来说,强化学习可以被称为“反馈延迟的监督学习“。

强化学习都是基于马尔科夫决策过程(MDP)进行的,可以分为模型相关与模型无关两类,对于模型无关这种类型,就需要用到Q函数,其中会有Q Learning 、MC Control 和 SARSA 这三种算法,上一篇博文中讲的就是其中的Q-learning算法。

基于Q-learning算法,我们可以做出一些很有意思的东西,其中之一就是flappy bird,这里给出该项目的github地址,大家可以参考下。

更多相关内容见PPT

编者 SGW

猜你喜欢

转载自blog.csdn.net/Abrohambaby/article/details/60126304
今日推荐