强化学习中，值迭代(value iteration)和策略迭代(policy iteration)，Truncated policy iteration区别的理解 - 代码天地

强化学习中，值迭代(value iteration)和策略迭代(policy iteration)，Truncated policy iteration区别的理解

企业开发 2023-04-08 01:30:50 阅读次数: 0

在B站上看到教程里面说值迭代和策略迭代是Truncated policy iteration的两个特殊情况，这里我想说下我的理解。

首先是概念：

action value，是state value v(s)、状态s、动作a的函数，表示了从state s出发，采取动作a可以获得多少return。action value的表现形式：
- 第一项表示了在状态s，采取动作a以后获得的reward的期望，这个是s和a的函数，和策略无关
- gamma是discounted rate是一个常数
- v(s’) 表示的是状态s’ 的state value
state value： v(s)指的是从状态s出发可以获得的return，可以使用action value和策略pi表示。

总结就是：

action value只需要前一个状态的state value就可以算出来
state value可以用action value和策略pi 算出来。

在这里插入图片描述

对于值迭代：

根据v(s)计算出了所有的action 对应的action value q(s)
根据q(s’)更新了一个v(s)
根据q(s’)选择了pi，直接选择q(s’)最大的那个action
继续1

下面是书上的算法：
在这里插入图片描述
可以看出书上省略了更新pi的步骤，而Loop中关键的一步：

其实可以看成两步：

先根据v算出了action value q, 就是r+gammaV(s’)
使用q更新了v，而这正是上面图中的1，2两步

下面是策略迭代：

第一步分为2小步
1. 根据v计算出一个q
2. 根据q和pi更新了v
3. 返回1.1，直到v不变
根据q更新pi
返回1

看下书上的：

在这里插入图片描述
第二步的loop里面就是上面的第一步里面不断迭代更新v，第3步就是根据q更新pi，和上面的第二步相同。

总结：

值迭代的过程是： v->q->pi->v->q->pi->v->q->…，
策略迭代的过程是：v->q->v->q->v->q->pi->v->q->v->q->pi->…

也就是说：

值迭代是一次v->q就更新了策略pi，
策略迭代是v->q->v->q这样迭代了若干次，直到v收敛才更新pi，理论上需要迭代无数次，
Truncated policy iteration指的是不需要更新到v收敛，v->q迭代若干次就更新pi。

猜你喜欢

转载自blog.csdn.net/HGGshiwo/article/details/129000291

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)