时序差分方法 - 代码天地

时序差分方法

其他 2018-08-03 18:06:12 阅读次数: 0

时序差分方法

动态规划的公式是在每执行一步策略后更新值函数，但必须模型可知；
蒙特卡罗方法对末知模型进行动态值估计，但需要在完成一个采样阶段后才能更新值函数。
而时序差分方法则结合了动态规划和蒙特卡罗方法的思想，做到更高效的免模型学习。

1､公式推导

动态规划：
$v_π(s) = E(r+g*v_π(s'))$
$E：$ 数学期望， $g：$ 折扣率；

蒙特卡罗方法：
$V_{t+1}(s) = V_t(s)+a(v_{t+1}(s)-V_t(s))$
$V_t(s)：$ t阶段后状态 $s$ 的状态值， $v_t(s)：$ 第t阶段状态 $s$ 的状态值；

将动态规划中的公式代入蒙特卡罗方法中的公式得：

$V_{t+1}(s)$
$= V_t(s)+a(E(r+g*v_π(s'))-V_t(s))$
$= V_t(s)+a(r_{t+1}+g*V_t(s')-V_t(s))$

动作值函数也可以使用这公式，因此：

Q_{t + 1} (s, a) = Q_{t} (s, a) + a (r_{t + 1} + g * Q_{t} (s^{'}, a^{'}) - Q_{t} (s, a))

$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*Q_t(s',a')-Q_t(s,a))$

2､类别

根据 $Q_t(s',a')$ 的选择不同，可以分三种方法：

sarsa0:根据e贪婪策略随机选择下一个状态 $s'$ 的动作 $a'$ ，并将 $Q_t(s',a')$ 作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*Q_t(s',a')-Q_t(s,a))$

sarsamax(Q学习):将下一个状态 $s'$ 的最大动作值作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*max(Q_t(s',a'))-Q_t(s,a))$

预期sarsa:根据e贪婪策略，将下一个状态 $s'$ 的状态值作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*\sum_{a'∈A(s')}π(a'|s')*Q_t(s',a')-Q_t(s,a))$

3､性能分析

1､Sarsa 和预期 Sarsa 都是异同策略 TD 控制算法。在这种情况下，我们会根据要评估和改进的相同（e贪婪策略）策略选择动作。

2､Sarsamax 是离线策略方法，我们会评估和改进（e贪婪）策略，并根据另一个策略选择动作。

3､既定策略 TD 控制方法（例如预期 Sarsa 和 Sarsa）的在线效果比新策略 TD 控制方法（例如 Sarsamax）的要好。

4､预期 Sarsa 通常效果比 Sarsa 的要好。

5､Q 学习的在线效果更差（智能体在每个阶段平均收集的奖励更少），但是能够学习最优策略，以及Sarsa 可以获得更好的在线效果，但是学到的是次最优“安全”策略。

猜你喜欢

转载自blog.csdn.net/u012587024/article/details/81383303

时序差分方法

机器学习方法篇(27)------时序差分方法

强化学习（六）：时序差分方法

时序差分学习（TD）

n步自举法：时序差分方法与蒙特卡洛方法的结合

强化学习系列--时序差分学习方法（SARSA算法）

强化学习4-时序差分TD

周志华强化学习时序差分学习公式推导

强化学习基础：蒙特卡罗和时序差分

强化学习：时序差分算法 TD-learning

【强化学习理论】时序差分算法

TD Temporal-Difference Learning 时序差分法（差分学习）

《强化学习》中的时序差分学习 Temporal-Difference Learning （基于与动态规划 DP 、蒙特卡洛方法 MC 的对比）

为什么时序差分是动态规划和蒙特卡罗的结合

Reinforcement Learning强化学习系列之四：时序差分TD

强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

强化学习(四)——蒙特卡洛和时序差分

强化学习 Sarsa & Q-learning：on & off policy策略下的时序差分控制

TicTacToe: 基于时序差分TD(0)算法的agent实现以及完整python实现框架

实证研究方法——双重差分

差分

-----差分------

差分与树上差分

《强化学习》中的时序差分控制：Sarsa、Q-learning、期望Sarsa、双Q学习 etc.

ADPRL - 近似动态规划和强化学习 - Note 12 - 数值时序差分学习(Numerical TD Learning)

ADPRL - 近似动态规划和强化学习 - Note 11 - 时序差分学习(Theory of TD learning)

强化学习之时间差分方法

基于差分池化的分层图表示方法概述

【模板】差分约束算法（两种方法）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)