强化学习 model free 蒙特卡洛增量与 TD(0) - 代码天地

强化学习 model free 蒙特卡洛增量与 TD(0)

其他 2020-08-11 19:43:55 阅读次数: 0

时序差分（TD）学习结合了蒙特卡洛方法和动态规划的方式：

对于蒙特卡洛方法，其迭代的方式是用episode中所有的样本结果作为更新的目标，如下所示，Gt代表的是时刻t真实的回报，他是有所有根据样本得到。

对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果：

所以对于蒙特卡洛方式，TD(0)只是改变了一个地方，即用下一状态得到的真实值 + 下一状态的估计值 v(s+1)乘上一个折扣因子 gamma 代表全样本的sample 结果。

这样的好处是，只需要通过该状态下的下一状态就能更新价值函数，而不用像蒙特卡洛一样在全部episode结束后才能更新值。

就像上面一张图一样，完全的树是DP算法的复杂度，蒙特卡洛是下面这颗树，上面这颗树是TD(0)算法的复杂度。

MC 与 TD0 对比：

猜你喜欢

转载自blog.csdn.net/qq_36336522/article/details/107869246

强化学习 model free 蒙特卡洛增量与 TD(0)

强化学习蒙特卡洛模拟一种model-free的强化学习方法

【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

强化学习笔记（4）—— 无模型（model-free）prediction问题（α-MC方法、TD方法）

4、强化学习--model free 控制

3、强化学习--model free决策

强化学习&蒙特卡洛2 | 蒙特卡洛思想

强化学习（四）：蒙特卡洛方法

强化学习之蒙特卡洛方法

强化学习（五）：蒙特卡洛采样方法

强化学习&蒙特卡洛3 | Q表

[强化学习] 蒙特卡洛方法

深度强化学习——蒙特卡洛算法(6)

强化学习：蒙特卡洛方法(MC)

学习强化学习无法避开的两个词：Model-Based与Model-Free

[强化学习]区分Model-free和Model-based方法

David Silver 强化学习Lecture4：Model-Free Prediction

强化学习笔记（5）—— 无模型（model-free）control问题

【深度强化学习】不基于模型的预测（Model-Free Prediction）

增强学习（强化学习）基础之蒙特卡洛方法

人工智障学习笔记——强化学习(3)蒙特卡洛方法

重温强化学习之无模型学习方法：蒙特卡洛方法

[强化学习-4] 蒙特卡洛和时序差分法-控制

[强化学习-3] 蒙特卡洛和时序差分法-预测

强化学习（RLAI）读书笔记第五章蒙特卡洛方法

强化学习导论第五章蒙特卡洛模拟

《强化学习Sutton》读书笔记（四）——蒙特卡洛方法（Monte Carlo Methods）

强化学习系列7：无模型的蒙特卡洛法

强化学习(四)——蒙特卡洛和时序差分

[归纳]强化学习导论 - 第五章：蒙特卡洛方法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)