【5分钟Paper】Fast强化学习和Slow强化学习

  • 论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning

作者及标题信息截图

所解决的问题

  让RL学地更快一点。

背景

  动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法?

  将学习过程中的智能体作为一个优化目标,然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

  智能体与环境的交互如下图所示:

智能体交互过程

  用n表示特殊的MDP中包含的epsiode数,上图中 n = 2 n=2 next state s t + 1 s_{t+1} action a t a_{t} reward r t r_{t} 和终止信号 d t d_{t} (episode 终止为1,非终止为0)组成策略的输入,在隐状态 h t + 1 h_{t+1} 的条件下,生成下一个隐状态 h t + 2 h_{t+2} 和动作 a t + 1 a_{t+1} 。episode的隐状态可以用于下一个episode,但是不会用于不同的trail。

  智能体的目标是最大化累计折扣奖励(一个trial,而不是一个episode)。这种做法使得智能体是在考虑整体,而非局部。最后查ICLR2017的审稿意见,说最外层的智能体优化里层智能体RNN的参数,大概就是这么个思想吧。

取得的效果?

在多臂老虎机下的实验

视觉导航

Visual navigation实验结果

所出版信息?作者信息?

  这篇文章并没有中,伯克利和OpenAI著作。

发布了199 篇原创文章 · 获赞 174 · 访问量 22万+

猜你喜欢

转载自blog.csdn.net/weixin_39059031/article/details/105639943
今日推荐