【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法 - 代码天地

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

其他 2018-06-08 05:08:45 阅读次数: 0

【深入浅出强化学习原理入门学习笔记】4.无模型的强化学习方法-蒙特卡罗算法

无模型

再解释一下什么是无模型？无模型就是状态转移函数，回报函数不知道的情况，不知道在 $(s,a)$ 的情况下，状态怎么转移，回报函数也不知道， $\pi (s_{t+1} | s_t, a_t)$ 的转移概率未知。
在基于模型的动态规划方法中是基于模型的，包括策略迭代法和值函数迭代法，可以统一到广义策略迭代法，即先进行策略评估（计算值函数），然后基于基函数做策略改善。

蒙特卡洛方法

状态值函数和状态-行为值函数的本质是期望，之前动态规划的方法可以通过模型计算期望，在无模型的情况下，可以通过经验平均来估计期望，可以采用蒙特卡罗的方法。基本的思路就是利用蒙特卡洛反复实验，得到实验数据，计算经验平均，在经验平均的基础上进行策略评估和改善。因为是经验平均估计，因此需要保证每个状态都能被访问到，在这里介绍探索性初始化方法：
1，所有状态初始化，值函数初始化
2，随机选择一个状态，以一个策略（行动策略）选择该状态下的一个行为，得到反馈序列，对在实验中出现的每一个状态-行为对以及附属的回报，以递增平均的方式，加和到对应的状态-行为值函数中。
3，以贪心策略进行策略评估和改善（目标策略）
4，重复2，3

注意递增平均的方式为： $v_k(s)=v_{k-1}(s)+\frac{1}{k}(G_k(s)-V_{k-1})$
如果行动策略和目标策略是相同的策略，称之为同策略；否则称之为异策略，异策略中的两个策略需要满足：行动策略包含或者覆盖目标策略。

重要性采样

因为数据是行动策略产生的，对目标策略进行评估（计算值函数）时需要重要性采样。

因为对于异步策略中两个策略的分布不一样（即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样），需要使用加权重要性采样来更新值函数。

加权重要性采样【待更】

参考书籍：

深入浅出强化学习原理入门

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/79470131

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

强化学习学习[1]——基于蒙特卡罗的强化学习方法

【强化学习笔记】5.无模型的强化学习方法-时间差分算法

强化学习经典算法笔记(三)：蒙特卡罗方法Monte Calo Method

强化学习-蒙特卡罗法

【RL系列】从蒙特卡罗方法步入真正的强化学习

强化学习系列（五）：蒙特卡罗方法（Monte Carlo)

强化学习笔记-05 蒙特卡罗方法Monte Carlo Method

重温强化学习之无模型学习方法：蒙特卡洛方法

强化学习笔记

强化学习基础：蒙特卡罗和时序差分

【强化学习笔记】8.1 基于置信域策略优化的强化学习方法

【强化学习笔记】7.1 基于策略梯度的强化学习方法

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

强化学习学习笔记

强化学习的学习笔记

强化学习蒙特卡洛模拟一种model-free的强化学习方法

强化学习模型

强化学习方法分类

强化学习（四）用蒙特卡罗法（MC）求解强化学习（三）用动态规划（DP）求解强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

2019/5/14 基于无模型的强化学习方法

强化学习算法

强化学习算法：

强化学习复习笔记

强化学习入门笔记

深度强化学习笔记

RLChina强化学习笔记

强化学习笔记（二）

强化学习笔记（一）

强化学习笔记（四）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)