深度强化学习剖析

深度强化学习剖析

深度强化学习是深度学习与强化学习的结合,具体来说是结合了深度学习的结构和强化学习的思想:

这里写图片描述

也可以说是将深度学习的感知能力与强化学习的决策能力相结合,通过端对端的学习方式实现从原始状态输入到最终的动作输出。如果类比人类的话,可以大致的把深度学习看作眼睛,强化学习看作大脑:
这里写图片描述

但深度强化学习的侧重点更多的是在强化学习上,解决的仍然是决策问题,只不过是借助神经网络强大的表征能力去拟合Q表或直接拟合策略以解决状态-动作空间过大或连续状态-动作空间问题。

以Atari打砖块游戏为例,球和砖块任意不同的位置都可以相当于一个不同的状态,如此庞大的状态数量使得传统的强化学习不可能给每一个状态对应一个动作,而深度学习端到端的学习能力能够自动提取特征,训练出一个复杂的多层的具有很强表达能力的模型去拟合当前的状态,强化学习再去学会如何根据当前状态执行相应的动作,以获得最大的累计奖惩。

这其实可以看作两个步骤:原始图片到状态的映射,状态到动作的映射,分别由深度学习和强化学习来完成。而由于神经网络的黑箱性质,深度增强学习可以把整个过程通盘考虑,而不需要去表现中间的状态。
这里写图片描述
这样,深度学习就不仅仅相当于眼睛,还包括大脑的理解能力,而强化学习则是大脑决策能力的体现。

注:本文假定你对深度学习和强化学习有基本的了解,如果不了解强化学习,可以参见我的另一篇博客:一个简单的例子让你理解强化学习是什么,和有监督学习的区别又是什么

猜你喜欢

转载自blog.csdn.net/songyunli1111/article/details/81608096