《强化学习》 DP动态规划

奖赏设计

累计奖赏和折扣累计奖赏

这里写图片描述
这里写图片描述
这里写图片描述
数学上看,折扣奖赏机制可以将累计回报转化为递推的形式:

G t = R t + γ ( R t + 1 + γ R t + 2 + . . . ) = R t + γ G t + 1

折扣是一种固定效应模型

这里写图片描述

奖赏设计:不要平移,奖励做什么而不是怎么做

这里写图片描述

奖赏设计:缩放,塑形

这里写图片描述

贝尔曼等式

状态值函数

这里写图片描述

值函数的贝尔曼期望等式

这里写图片描述

动作值函数

这里写图片描述

两者关系

这里写图片描述

动作值函数的贝尔曼期望等式

这里写图片描述

衡量策略优劣

这里写图片描述

贝尔曼最优等式

这里写图片描述

广义策略迭代GPI

策略评估

这里写图片描述
这里写图片描述

策略改进

这里写图片描述
这里写图片描述
这里写图片描述

GPI

这里写图片描述
这里写图片描述

策略迭代

这里写图片描述

值迭代

这里写图片描述

对比

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80508413
今日推荐