深入理解强化学习——马尔可夫决策过程:价值迭代-[最优性原理]

分类目录:《深入理解强化学习》总目录


在文章《深入理解强化学习——马尔可夫决策过程:策略迭代-[基础知识]》中我们介绍了马尔可夫决策过程中的策略迭代,现在我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分。第一步执行的是最优的动作。之后后继的状态的每一步都按照最优的策略去做,最后的结果就是最优的。

最优性原理定理(Principle of Optimality Theorem): 一个策略 π ( a ∣ s ) \pi(a|s) π(as)在状态 s s s达到了最优价值,也就是 V π ( s ) = V ∗ ( s ) V_\pi(s)=V^*(s) Vπ(s)=V(s)成立,当且仅当对于任何能够从 s s s到达的 s ′ s' s,都已经达到了最优价值。也就是对于所有的 s ′ s' s V π ( s ‘’ ) = V ∗ ( s ) V_\pi(s‘’)=V^*(s) Vπ(s‘’)=V(s)恒成立。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/135003596