时序差分学习（TD） - 代码天地

时序差分学习（TD）

物联网 2023-06-11 19:34:27 阅读次数: 0

在强化学习所有的思想中，时序差分(TD)学习是最核心，最新颖的思想。蒙特卡洛(MC)往往需要等到完整的一轮结束了之后才能确定真实回报G(t)，但实际中很多场景完整一轮的时间非常长，或者根本没有结束状态，这时候用蒙特卡洛的方法就不适合了。

时序差分学习(TD)

时序差分学习是一种从经验片段中进行学习的一种方法，与MC最大的差距就是，TD方法不需要等到一轮结束（即等到终止状态），只需要等到下一个时刻即可。在t+1时刻，根据得到的奖励 $R_{t+1}$ 和估计值 $V(S_{t+1})$ 对当前的估计值 $V(S_t)$ 进行跟新，定义为：
$V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$
括号里面的是误差，它是衡量 $S_{t}$ 的估计值和更好的估计值 $R_{t+1}+\gamma V(S_{t+1})$ 之间的差异，定义为：
$\delta_t=R_{t+1}+\gamma V(S_{t+1})-V(S_t)$
注意，每个时刻的误差是当前时刻的误差，取决于下一个时刻的状态和奖励。也就是说，t时刻的误差需要到t+1时刻才能得到。

MC方法更新的目标为 $G (t)$ ，TD方法更新的目标为 $R_{t+1}+\gamma V(S_{t+1})$ ，乍一看好像说不通，可以结合一个例子看看

例子

alt
alt
MC方法很好理解，我们已经经过了完整的一轮，G(t)已知，以G(t)为目标，过程会发生一些意外情况，但最后是不断逼近目标值。
TD方法属于一边经历一遍估计的学习方式，不需要经过完整一轮，不知道G(t)的值，每走一步之后，都需要根据经验对未来进行估计，最后一样可以收敛到最终值。

猜你喜欢

转载自blog.csdn.net/u011895157/article/details/129521318

时序差分学习（TD）

强化学习4-时序差分TD

强化学习：时序差分算法 TD-learning

TD Temporal-Difference Learning 时序差分法（差分学习）

强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

Reinforcement Learning强化学习系列之四：时序差分TD

ADPRL - 近似动态规划和强化学习 - Note 12 - 数值时序差分学习(Numerical TD Learning)

ADPRL - 近似动态规划和强化学习 - Note 11 - 时序差分学习(Theory of TD learning)

TicTacToe: 基于时序差分TD(0)算法的agent实现以及完整python实现框架

【转载】强化学习（五）用时序差分法（TD）求解

时序差分方法

【转载】强化学习（六）时序差分在线控制算法SARSA 强化学习（五）用时序差分法（TD）求解

周志华强化学习时序差分学习公式推导

机器学习方法篇(27)------时序差分方法

强化学习基础：蒙特卡罗和时序差分

强化学习（六）：时序差分方法

【强化学习理论】时序差分算法

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

强化学习系列--时序差分学习方法（SARSA算法）

说点人话的强化学习：TD算法解释，时间差分算法详解，直观理解，一定能看懂的TD算法解释

强化学习（RLAI）读书笔记第六章差分学习（TD-learning）

强化学习(四)——蒙特卡洛和时序差分

强化学习 Sarsa & Q-learning：on & off policy策略下的时序差分控制

增强学习（强化学习）基础之TD差分法

【强化学习】时间差分法(TD)

《强化学习》中的时序差分控制：Sarsa、Q-learning、期望Sarsa、双Q学习 etc.

差分学习笔记

学习笔记——差分

《强化学习》中的时序差分学习 Temporal-Difference Learning （基于与动态规划 DP 、蒙特卡洛方法 MC 的对比）

ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例（Monte Carlo and Temporal Difference）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)