强化学习的两大基本问题

困扰我一段时间的强化学习中的预测评估的概念,在这里先明确一下

预测

预测 = 策略评估 = 求解给定状态的价值函数

即给定强化学习的6个要素:状态集S, 动作集A, 模型状态转化概率矩阵P, 即时奖励R,衰减因子γ,  给定策略π, 求解该策略的状态价值函数v(π)

控制

控制 = 先评估,再调整我们的动作策略

也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集S, 动作集A, 模型状态转化概率矩阵P, 即时奖励R,衰减因子γ, 求解最优的状态价值函数v∗和最优策略π∗ 

猜你喜欢

转载自blog.csdn.net/weixin_43450646/article/details/107271068