重温强化学习之无模型学习方法：蒙特卡洛方法

编程语言 2018-12-11 08:50:56 阅读次数: 0

1、无模型方法简介

无模型属于学习方法的一种，(学习和规划),需要智能体和环境进行交互，一般采用样本备份，需要结合充分的探索

MDPs中未知P,R－无模型

交互是为了更加了解环境，了解状态

动态规划是已经知道模型，没有模型通过采样的方法，也就是样本备份

从经验中学习

和动态规划的区别：

无模型学习：

1、未知环境模型

2、需要与环境进行交互，有交互成本（时间、金钱）

3、样本备份

4、异步备份（更新状态值函数不需要等待更新其它状态值函数）

5、需要充分的探索（不进行充分探索，学不到最优策略）

6、两个策略（行为策略和目标策略）

动态规划：

1、已知环境模型

2、不需要直接交互，直接利用环境模型推导

3、全宽备份

4、同步和异步

5、无探索（只需要做演算就可以）

6、一个策略

2、在策略和离策略

行为策略是智能体与环境进行交互的策略,（用来产生样本）

目标策略是我们学习的策略，即Vpi 时的下标

在策略（on-policy）学习：

行为策略和目标策略是同一个策略，直接使用样本统计属性去估计总体，更简单且收敛性更好

数据利用性更差（只有智能体当前交互的样本能够被利用）

限定学习过程中的策略是随机性策略

离策略（off-policy）学习：

行为策略和目标策略不是同一个策略

一般行为策略选用随机性策略，目标策略选用确定性策略

需要结合重要性采样才能使用样本估计总体

方差更大，收敛性更差

数据利用性更好(可以使用其它智能体交互的样本，例如学围棋可以用棋谱样本用)

行为策略比目标策略更具备探索性，即，在每个状态下，目标策略的可行动作是行为策略可行动作的子集

重要性采样：

例子：

重要性采样公式：

离策略学习中的重要性采样：

3、蒙特卡洛方法(Monte Carlo,MC)

蒙特卡洛树，蒙特卡洛在树中采样一条轨迹

方差比较大，树中每一个节点有一定随机性，轨迹比较长，中间随机性较大，

做一次实验，可信性比较差

样本备份

动态规划方法：

考虑所有后继状态以及所做的动作

一步备份，只考虑一步情况，蒙特卡洛考虑到最终的状态

4、蒙特卡洛评价

蒙特卡洛不使用贝尔曼方程

在策略蒙特卡洛评价：

First-visit MC策略评价：

Every-visit MC策略评价：

对Q函数的MC方法：

离策略蒙特卡洛评价：

MC特点小结：

5、增量式蒙塔卡洛算法

为什么需要增量式蒙特卡洛？

增量式MC更新

平均值更新

常量步长：

特点：

6、蒙特卡洛优化

广义策略迭代：

MC中的广义策略迭代

问题一：使用哪个值函数？Q函数

问题二：是否可以贪婪策略提升？

MC虽然利用过去的经验数据，但是某些状态并未遍历到，遍历不够充分，置信度不够

－贪婪策略

策略提升

MC策略迭代：

增量式策略评价：

每条轨迹

7、蒙塔卡洛算法引申

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/84929050

重温强化学习之无模型学习方法：蒙特卡洛方法

强化学习（四）：蒙特卡洛方法

强化学习之蒙特卡洛方法

强化学习（五）：蒙特卡洛采样方法

[强化学习] 蒙特卡洛方法

强化学习：蒙特卡洛方法(MC)

强化学习蒙特卡洛模拟一种model-free的强化学习方法

第二篇值函数Based——基于蒙特卡洛的强化学习方法

增强学习（强化学习）基础之蒙特卡洛方法

人工智障学习笔记——强化学习(3)蒙特卡洛方法

强化学习（RLAI）读书笔记第五章蒙特卡洛方法

《强化学习Sutton》读书笔记（四）——蒙特卡洛方法（Monte Carlo Methods）

[归纳]强化学习导论 - 第五章：蒙特卡洛方法

RL - 强化学习蒙特卡洛 (Monte-Carlo) 方法计算状态价值

强化学习&蒙特卡洛2 | 蒙特卡洛思想

强化学习&蒙特卡洛3 | Q表

深度强化学习——蒙特卡洛算法(6)

强化学习系列7：无模型的蒙特卡洛法

心得&复述知识体系：《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

深入理解强化学习——马尔可夫决策过程：蒙特卡洛方法-[基础知识]

深入理解强化学习——马尔可夫决策过程：蒙特卡洛方法-[代码实现]

第四章蒙特卡洛方法-强化学习理论学习与代码实现（强化学习导论第二版）

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

《统计学习方法》笔记--蒙特卡洛法

《强化学习》中的时序差分学习 Temporal-Difference Learning （基于与动态规划 DP 、蒙特卡洛方法 MC 的对比）

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

[强化学习-4] 蒙特卡洛和时序差分法-控制

[强化学习-3] 蒙特卡洛和时序差分法-预测

强化学习导论第五章蒙特卡洛模拟

强化学习(四)——蒙特卡洛和时序差分

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)