2019/5/14 基于无模型的强化学习方法 - 代码天地

2019/5/14 基于无模型的强化学习方法

其他 2020-01-12 10:32:50 阅读次数: 0

（一）无模型的强化学习方法解决哪类问题

模型状态转化概率矩阵P始终是未知

（二）无模型强化学习方法简述

无模型的强化学习

一、蒙特卡洛

1、特点

　蒙特卡罗法根据若干完整的状态序列(episode)来估计状态的真实价值。所谓的经历完整，就是这个序列必须是达到终点的。

2、流程

1、初始化所有

2、随机选择状态策略、按策略生成实验

3、回报取均值

4、策略改进

3、蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。

二、时间差分

蒙特卡洛做试验加动态规划用后继状态值函数估计当前状态值函数。

包括同策略的Sarsa和Q-learning（DQN改进Qlearning）

基于值函数的强化学习方法：状态空间到动作空间的映射，通过迭代逼近值函数（并采用贪婪策略）。

基于策略搜索的强化学习方法：迭代策略的参数，使累计汇报的期望最大

时序差分和蒙特卡罗法比它更加灵活，学习能力更强，因此是目前主流的强化学习求解问题的方法，现在绝大部分强化学习乃至深度强化学习的求解都是以时序差分的思想为基础的。

三、值函数逼近

1、增量式学习算法

随机梯度下降法

2、批学习算法

四、策略搜索

五、其他

强化学习分类

参考传送门：https://blog.csdn.net/fendouaini/article/details/100149701 深度强化学习（DRL）专栏（一）

强化学习方法对比：

参考传送门：https://blog.csdn.net/qq_39388410/article/details/88795124

发布了31 篇原创文章 · 获赞 2 · 访问量 713

私信关注

猜你喜欢

转载自blog.csdn.net/qq446293528/article/details/90215305

2019/5/14 基于无模型的强化学习方法

【强化学习笔记】5.无模型的强化学习方法-时间差分算法

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

强化学习系列5：有模型的策略迭代方法

强化学习笔记（5）—— 无模型（model-free）control问题

【ICLR2019】基于模型的深度强化学习算法框架，具有理论保证

漫谈基于模型的强化学习方法 PILCO - Probabilistic Inference for Learning Control

在调查过基于模型的强化学习方法后，我们得到这些结论

基于Q-function的强化学习方法的总结

基于策略搜索的强化学习方法

基于值函数逼近的强化学习方法

基于Stochastic Policy的深度强化学习方法

强化学习学习[1]——基于蒙特卡罗的强化学习方法

【强化学习笔记】8.1 基于置信域策略优化的强化学习方法

【强化学习笔记】7.1 基于策略梯度的强化学习方法

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

SLAM14讲第5讲代码错误解决方法 2019-3-14

强化学习方法分类

强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

PyTorch学习（14）——强化学习（DQN）

2019-5-14

重温强化学习之无模型学习方法：蒙特卡洛方法

【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN)

强化学习中的无模型控制

强化学习中的无模型预测

【强化学习笔记】3.1 基于模型的动态规划方法

重温强化学习之基于模型方法：动态规划

基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习

2019/1/14 Linux学习

学习日志——2019/09/14

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)