【5分钟Paper】Fast强化学习和Slow强化学习 - 代码天地

【5分钟Paper】Fast强化学习和Slow强化学习

其他 2020-04-22 08:37:06 阅读次数: 0

文章目录

所解决的问题
背景
所采用的方法？
取得的效果？
所出版信息？作者信息？

论文标题：Fast Reinforcement Learning Via Slow Reinforcement Learning

作者及标题信息截图

所解决的问题

让RL学地更快一点。

背景

动物可以很快学习一些事情，而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识，但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法？

将学习过程中的智能体作为一个优化目标，然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

智能体与环境的交互如下图所示：

智能体交互过程

用n表示特殊的MDP中包含的epsiode数，上图中 $n=2$ 。next state $s_{t+1}$ ，action $a_{t}$ ，reward $r_{t}$ 和终止信号 $d_{t}$ (episode 终止为1，非终止为0)组成策略的输入，在隐状态 $h_{t+1}$ 的条件下，生成下一个隐状态 $h_{t+2}$ 和动作 $a_{t+1}$ 。episode的隐状态可以用于下一个episode，但是不会用于不同的trail。

智能体的目标是最大化累计折扣奖励(一个trial，而不是一个episode)。这种做法使得智能体是在考虑整体，而非局部。最后查ICLR2017的审稿意见，说最外层的智能体优化里层智能体RNN的参数，大概就是这么个思想吧。

取得的效果？

在多臂老虎机下的实验

视觉导航

Visual navigation实验结果

所出版信息？作者信息？

这篇文章并没有中，伯克利和OpenAI著作。

小小何先生博客专家

发布了199 篇原创文章 · 获赞 174 · 访问量 22万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_39059031/article/details/105639943

【5分钟Paper】Fast强化学习和Slow强化学习

【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制

三分钟入门强化学习

强化学习AI，20分钟可学会开自动驾驶汽车

强化学习了解强化学习的目标和回报

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

强化学习的学习～

强化学习学习

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习的资料

强化学习总结

强化学习基础

强化学习笔记

强化学习-入门

强化学习（二）

深度强化学习

强化学习概览

强化学习实例

强化学习综述

强化学习——Qlearning

强化学习一

强化学习二

强化学习浅谈

强化学习-Tips

强化学习资料

今日推荐

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

开源王者！全球最强的开源大模型Llama3发布！15万亿数据集训练，最高4000亿参数，数学评测超过GPT-4，全球第二！

为欧拉系统安装可视化界面(deepin）

MobaXterm中文版（MobaXterm-Chinese-Simplified）安装和使用

JS 网页全自动翻译 v3.4 发布，开放对 html 文件的翻译能力

这是Linus最忍不了的一集——虚幻引擎代码规范禁止使用脏话、禁止slave、master

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

周排行

php 截取字符串长度并把超出规定长度的内容用...替代

生成3x3矩阵（2）：FIFO法的分析和改进

PyTorch Hub发布！一行代码调用所有模型：torch.hub

Unity中添加不规则图片按钮，只有在点击到图片后才触发点击效果

AI - TensorFlow - 示例01：基本分类

Andy's First Dictionary（UVA - 10815 ）集合set

IOS下Nil & nil & NULL 区别

swift 封装按钮倒计时

C. Maximum Median 二分

LSTM神经网络输入输出究竟是怎样的？

每日归档

更多

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)