《强化学习导论》中关于带控制变量的每次决策型方法的理解 - 代码天地

《强化学习导论》中关于带控制变量的每次决策型方法的理解

其他 2020-04-19 08:50:08 阅读次数: 0

在这里插入图片描述
从书中前面的介绍中可以看到，G通过加入一个控制变量，来达到降低方法的效果。虽然后面不知道怎么在推导正式公式的时后没有看到1-ρ的身影。。。（这里如果有知道的小伙伴，请留下您的意见）。

对于后面的这个公式来说，我的理解是：
第一：Gt+1:h也是个递归，还没展开。
第二：这个最终结果就类似树回溯算法，只不过这里用的是ρ。
在这里插入图片描述
这个地方稍微画以下就可以看出。
不知理解是否到位，还请不吝指教！

——————————————————————4.15 14：46————————————————————————
又仔细看了下，发现了这样几个发现：
第一，上面那个是V的离轨策略，下面是Q的离轨策略。
第二，在Q的离轨策略里我们是R+γ（），注意括号里是V，但是虽然是V，但是由于这是关于Q的，因此我们的V是用Q的求和表示的，所以是期望的形式。然后用Q更新V的值。
即可以理解为用下一步的V更新这一步的Q

野生蘑菇菌

发布了53 篇原创文章 · 获赞 8 · 访问量 3058

私信关注

猜你喜欢

转载自blog.csdn.net/def_init_myself/article/details/105516827

《强化学习导论》中关于带控制变量的每次决策型方法的理解

深入理解强化学习——马尔可夫决策过程：过程控制

深入理解强化学习——马尔可夫决策过程：预测与控制

深入理解强化学习——马尔可夫决策过程：动态规划方法

《强化学习导论》之doubleQ-Learning的理解

强化学习中的无模型控制

20230502 强化学习与反馈控制_利用自然决策方法设计最优自适应控制器

控制变量法

强化学习理解

强化学习导论笔记：马尔科夫决策过程

强化学习通俗导论（一）：什么是强化学习

深入理解强化学习——马尔可夫决策过程：蒙特卡洛方法-[基础知识]

深入理解强化学习——马尔可夫决策过程：蒙特卡洛方法-[代码实现]

【深度强化学习】3. 表格型方法

CMake变量（控制变量）

强化学习导论——Policy Gradient Methods

强化学习1.导论

强化学习 1.导论

强化学习之决策论——笔记

序贯决策与强化学习

3、强化学习--model free决策

[归纳]强化学习导论 - 第十一章：基于拟合器的off-policy控制

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制

对深度强化学习的理解

理解控制变量、内生变量、外生变量、工具变量

四足机器人——强化学习实现minitaur运动控制（决策模型篇）

理解强化学习中的策略迭代和值迭代

深入理解强化学习——马尔可夫决策过程：策略迭代-[基础知识]

深入理解强化学习——马尔可夫决策过程：备份图（Backup Diagram）

深入理解强化学习——马尔可夫决策过程：状态价值函数

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)