强化学习之时间差分方法 - 代码天地

强化学习之时间差分方法

其他 2018-10-14 21:26:02 阅读次数: 0

TD 预测：TD(0)

虽然蒙特卡洛 (MC) 预测方法必须等到阶段结束时才能更新值函数估值，但是时间差分 (TD) 方法在每个时间步之后都会更新值函数。
对于任何固定策略，一步 TD（或 TD(0)）保证会收敛于真状态值函数，只要步长参数 \alphaα 足够小。
在实践中，TD 预测的收敛速度比 MC 预测得要快。

TD 预测：动作值

-（在此部分，我们讨论了估算动作值的 TD 预测算法。和 TD(0) 算法相似，该算法保证会收敛于真动作值函数，只要步长参数 \alphaα 足够小。）

TD 控制：Sarsa(0)

Sarsa(0)（或 Sarsa）是既定策略 TD 控制方法。它保证会收敛于最优动作值函数 q_*q∗，只要步长参数 \alphaα足够小，并且所选的 \epsilonϵ 满足有限状态下的无限探索贪婪算法 (GLIE) 条件。

TD 控制：Sarsamax

Sarsamax（或 Q 学习）是一种新策略 TD 控制方法。它会在保证 Sarsa 算法会收敛的相同条件下保证收敛于最优动作值函数 q_*q∗。

TD 控制：预期 Sarsa

预期 Sarsa 是一种新策略 TD 控制方法。它会在保证 Sarsa 和 Sarsamax 算法会收敛的相同条件下保证收敛于最优动作值函数 q_*q∗。

在以下情况下，我们讨论过的所有 TD 控制算法（Sarsa、Sarsamax、预期 Sarsa）都会收敛于最优动作值函数 q_*q∗（并生成最优策略 \pi_*π∗）：(1)\epsilonϵ 的值根据 GLIE 条件逐渐降低，以及 (2) 步长参数 \alphaα 足够小。

这些算法之间的区别总结如下：

Sarsa 和预期 Sarsa 都是异同策略 TD 控制算法。在这种情况下，我们会根据要评估和改进的相同（\epsilonϵ 贪婪策略）策略选择动作。
Sarsamax 是离线策略方法，我们会评估和改进（\epsilonϵ 贪婪）策略，并根据另一个策略选择动作。
既定策略 TD 控制方法（例如预期 Sarsa 和 Sarsa）的在线效果比新策略 TD 控制方法（例如 Sarsamax）的要好。
预期 Sarsa 通常效果比 Sarsa 的要好。

猜你喜欢

转载自blog.csdn.net/Gin077/article/details/82902501

强化学习之时间差分方法

强化学习（五）：时间差分学习

人工智障学习笔记——强化学习(4)时间差分方法

【强化学习笔记】5.无模型的强化学习方法-时间差分算法

第二篇值函数Based——基于时间差分的强化学习方法

[归纳]强化学习导论 - 第六章：时间差分学习

强化学习系列（六）：时间差分算法（Temporal-Difference Learning)

强化学习经典算法笔记(五)：时间差分算法Temporal Difference（SARSA算法）

【强化学习】时间差分法(TD)

强化学习经典算法笔记(四)：时间差分算法Temporal Difference（Q-Learning算法）

强化学习导论第六章瞬时时间差分法

说点人话的强化学习：TD算法解释，时间差分算法详解，直观理解，一定能看懂的TD算法解释

强化学习（六）：时序差分方法

时间差分

强化学习系列--时序差分学习方法（SARSA算法）

周志华强化学习时序差分学习公式推导

强化学习4-时序差分TD

强化学习基础：蒙特卡罗和时序差分

强化学习：时序差分算法 TD-learning

【强化学习理论】时序差分算法

计算时间差的方法

计算时间差（天、时、分）

强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

MySQL学习笔记：时间差

MySQL学习笔记：timediff —— 时间差

时间差分法与Q学习算法

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

时间差分方法Q-learning和sarsa的区别

随机游走任务中时间差分（0）和常数α蒙特卡罗方法的比较

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)