深入理解强化学习——马尔可夫决策过程:状态价值函数

分类目录:《深入理解强化学习》总目录


我们用 V ∗ ( s ) V^*(s) V(s)表示在马尔可夫决策过程中基于策略 π \pi π的状态价值函数(State-value Function),定义为从状态 s s s出发遵循策略 π \pi π能获得的期望回报,数学表达为:
V π ( s ) = E π [ G t ∣ s t = s ] V_\pi(s)=E_{\pi}[G_t|s_t=s] Vπ(s)=Eπ[Gtst=s]

其中,期望基于我们采取的策略。当策略决定后,我们通过对策略进行采样来得到一个期望,计算出它的价值函数。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/134538691