分类目录:《深入理解强化学习》总目录
如果我们知道子问题 V ∗ ( s ′ ) V^*(s') V∗(s′)的最优解,就可以通过价值迭代来得到最优的 V ∗ ( s ) V^*(s) V∗(s)的解。价值迭代就是把贝尔曼最优方程当成一个更新规则来进行,即:
V ( s ) ← max a ∈ A ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V ( s ′ ) ) V(s)\leftarrow\max_{a\in A}(R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V(s')) V(s)←a∈Amax(R(s,a)+γs′∈S∑p(s′∣s,a)V(s′))
只有当整个马尔可夫决策过程已经达到最佳的状态时,上式才满足。但我们可以把它转换成一个备份的等式。备份的等式就是一个迭代的等式。我们不停地迭代贝尔曼最优方程,价值函数就能逐渐趋向于最佳的价值函数,这是价值迭代算法的精髓。
为了得到最佳的 V ∗ V^* V∗,对于每个状态的 V V V,我们直接通过贝尔曼最优方程进行迭代,迭代多次之后,价值函数就会收敛。这种价值迭代算法也被称为确认性价值迭代(Deterministic Value Iteration)。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022