周志华强化学习时序差分学习公式推导 - 代码天地

周志华强化学习时序差分学习公式推导

编程语言 2019-05-02 10:40:56 阅读次数: 0

**爱学习的泠语啊

本文主要推导16.4.2节时序差分学习情况下的状态-动作值函数，也是刚刚学习强化学习，有问题欢迎大家反馈吐槽啊~

前面就是吧啦吧啦一顿介绍时序差分的优点，大家看书应该就能看的挺明白了，最后得到如下的值函数增量式的估计办法：

$Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\frac{1}{t+1}(r_{t+1}-Q_{t}^{\pi}(x,a))$ 即公式（16.29）

这块大家注意哈， $r_{t+1}$ 指的是本次获得的Q函数采样值，而不是状态转移之后获得的奖励值

接着他搬出了公式16.10：

$Q_{\pi}(x,a)= \sum_{x \in X}P_{x \rightarrow x'}^a(R_{x \rightarrow x'}^a+\gamma V^{\pi}(x'))$

并将 $V^{\pi}(x')$ 替换为 $\sum_{a' \in A}\pi(x',a')Q^{\pi}(x',a')$ ，这块就是将V函数拆分成两个部分，执行动作a，以及在当前状态和执行当前动作情况下的Q函数，然后全概率展开求期望，小伙伴们应该对这块很熟悉了吧~

然后我们得到了公式16.30：

$Q_{\pi}(x,a)= \sum_{x \in X}P_{x \rightarrow x'}^a(R_{x \rightarrow x'}^a+\gamma \sum_{a' \in A}\pi(x',a')Q^{\pi}(x',a'))$

好了！重点来了！由上式是怎么得到公式（16.31）的呢？

我们需要搞清楚上式是在模型已知情况下的Q函数表达值，而在实际情况中，也就是本节，我们并不知道模型是什么
样的，也就是说，上式中涉及一切和概率相关的表达式我们统统不知道！具体的说就是我们并不知道状态转移概率 $P_{x \rightarrow x'}^a$ ，我们所能获得的全部信息都来自与下一时刻对环境信息观察所获得的采样值，然后通过求取平均值估计值函数。我们知道 $R_{x \rightarrow x'}^a$ ，知道 $Q^{\pi}(x',a')$ (在执行一次策略并计算就好了），因此我们所能得到的一次采样值 $r_{t+1}$ 为：

$r_{t+1}=R_{x \rightarrow x'}^a+\gamma Q^{\pi}(x',a')$

然后我们将 $r_{t+1}$ 的表达式带入（16.29）就得到公式（16.31）了~

猜你喜欢

转载自blog.csdn.net/GiveMeHug/article/details/89743007

周志华强化学习时序差分学习公式推导

周志华《机器学习》公式推导《pumpkin-book》南瓜书

周志华《机器学习》-所有公式推导集合

周志华《机器学习》-所有公式推导集合

周志华《Machine Learning》强化学习

强化学习-任务与奖赏（周志华）

强化学习Markov重要公式推导过程

周志华《Machine Learning》学习笔记（17）--强化学习

【强化学习理论】状态价值函数与动作价值函数系列公式推导

【强化学习理论】贝尔曼最优方程公式推导

强化学习4-时序差分TD

强化学习基础：蒙特卡罗和时序差分

强化学习（六）：时序差分方法

强化学习：时序差分算法 TD-learning

【强化学习理论】时序差分算法

强化学习：贝尔曼最优公式

机器学习公式推导

深度学习公式推导

机器学习（MACHINE LEARNING）【周志华版-”西瓜书“-笔记】 DAY16-强化学习

周志华西瓜书第16章强化学习（习题答案）（转）

强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

强化学习基础四--Policy Gradient 理论推导

深度强化学习-策略梯度算法推导

请问强化学习的策略梯度定理的推导过程是上面

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

强化学习系列--时序差分学习方法（SARSA算法）

Reinforcement Learning强化学习系列之四：时序差分TD

强化学习(四)——蒙特卡洛和时序差分

强化学习 Sarsa & Q-learning：on & off policy策略下的时序差分控制

《机器学习》周志华-Uzi

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)