深入理解强化学习——马尔可夫决策过程:动作价值函数

分类目录:《深入理解强化学习》总目录


不同于马尔可夫奖励过程,在马尔可夫决策过程中,由于动作的存在,我们额外定义一个动作价值函数(Action-value Function)。我们用 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)表示在马尔可夫决策过程遵循策略 π \pi π时,对当前状态 s s s执行动作 a a a得到的期望回报:
Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q_\pi(s, a)=E_\pi[G_t|S_t=s, A_t=a] Qπ(s,a)=Eπ[GtSt=s,At=a]

在使用策略 π \pi π中,状态 s s s的价值等于在该状态下基于策略 π \pi π采取所有动作的概率与相应的价值相乘再求和的结果:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)=\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ(s)=aAπ(as)Qπ(s,a)

使用策略 π \pi π时,状态 s s s下采取动作的价值等于即时奖励加上经过衰减后的所有可能的下一个状态的状态转移概率与相应的价值的乘积:
Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) Q_\pi(s, a)=r(s, a)+\gamma\sum_{s'\in S}P(s'|s, a)V_\pi(s') Qπ(s,a)=r(s,a)+γsSP(ss,a)Vπ(s)

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/134539064