在强化学习rl中对于state value function和state action value function的理解 - 代码天地

在强化学习rl中对于state value function和state action value function的理解

企业开发 2023-06-24 21:53:14 阅读次数: 0

在强化学习rl中对于state value function和state action value function的理解

在rl中，经常会提及两个基础的概念：
state (V) and action(Q)
或者也可以按照所刻画的内容称为：
V(s), Q(s, a)
在这里进行一定的区分和理解：

state value function:
英文解释可以理解为：
It is the expected return (cumulative reward)starting from the state s following policy, π.

我们可以将带有折扣因子的gamma的求和项写成累计g：
γ is the discount factor that determines how far future rewards are taken into account in the return

这样便是v(s)的结果表示值
action value function:
The expected return(cumulative reward) starts from state s, following policy π, taking action a.

可以看到，其中最不同的一点便是，在q function中，不仅是基于当前状态，并且还要基于某一个采取的action进行未来可能回报value的衡量
同理将求和项可以表示为：
这时候我们可以考虑一下q function与v function之间是否存在某种关系？
我们其实可以分两种方式：
a.用v表示q：

P 是一个 state-transition-matrix（状态转移矩阵）输出probability of reaching the next state s’ 从 state s
R is the immediate reward, and V is the state value of the next state s’

b.用q表示v：

在这里插入图片描述
value function 是总计的统计值：total sum of probability of choosing action or policy 乘以 the action-value of taking each action

最后可以看一下这个图片从而更好的理解两者之间的关系： 在这里插入图片描述
当然也有一些其他的理解，不过都比较准确：

在应用advantage function方面，这个工作便是例子：
Dueling Network Architectures for Deep Reinforcement Learning
另外一种理解：

基本上便是一致的表述，即为q function更加突出对action的刻画，也正是因为这个原因，他更佳适合于action space很大或者state action pair很难收集的情况！

respect！

猜你喜欢

转载自blog.csdn.net/qq_41725313/article/details/127846775

在强化学习rl中对于state value function和state action value function的理解

model free算法中的action value以及state value的理解

对 GAN 的 value function 的理解

RL-赵-(一)：基本概念【state value（v）、action value（q）、policy（π）、reward、return、trajectories、episode】

value is not a function，replace的错误

JS异常(intermediate value)(intermediate value)(...) is not a function

js 报错(intermediate value)(...) is not a function

[Reinforcement Learning] Value Function Approximation

Uncaught TypeError: (intermediate value)(...) is not a function

Lecture 4：Value Function Approximation

深度强化学习cs294 Lecture7: Value Function Methods

Uncaught TypeError: (intermediate value)(intermediate value)(intermediate value)(intermediate value)(...) is not a function

Uncaught TypeError: (intermediate value)(intermediate value)(intermediate value)(intermediate value)...is not a function

RL-赵-(八)-Value-Based03：Q-learning Function Approximation【目标：计算出最优“值函数”参数，通过该“值函数”计算出的Action Value最优】

强化学习中，值迭代(value iteration)和策略迭代(policy iteration)，Truncated policy iteration区别的理解

@Value("#{}") 和 @Value("{}")

Type of the default value for 'songs' prop must be a function

Uncaught TypeError: (intermediate value) is not a function.

javascript报错： Uncaught TypeError: (intermediate value)(...) is not a function

Soft Value function基础和Soft Q Learning中Policy Improvement 证明

045-函数值(Function Value)及匿名函数(Anonymous Function)

RL夏令营第一讲回顾--强化学习介绍和Value-Based方法

javascript中value、innerHtml理解

@Value

Random.state Random.value

@Value学习

Invalid default value for prop "value": Props with type Object/Array must use a factory function to return the default value.

Spring中@Bean的生命周期和@Value赋值的理解

State Function Approximation: Linear Function

怎样理解NgRx中的reducer，action，和state？

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)