强化学习中的动态规划三种算法Iterative Policy Evaluation, Policy Iteration, Value Iteration

迭代策略评估(Iterative Policy Evaluation)

  • 解决的是 Prediction 问题,使用了贝尔曼期望方程(Bellman Expectation Equation),每次迭代的策略都是一样的,比如都是每个action可能性一样

策略迭代(Policy Iteration)

  • 解决的是 Control 问题,实质是在迭代策略评估之后加一个选择 Policy 的过程,使用的是贝尔曼期望方程和贪心算法

价值迭代(Value Iteration)

  • 解决的是 Control 问题,它并没有直接计算策略(Policy),而是在得到最优的基于策略的价值函数之后推导出最优的 Policy,使用的是贝尔曼最优化方程(Bellman Optimality Equation)

猜你喜欢

转载自blog.csdn.net/Xurui_Luo/article/details/106711790