《强化学习》 模型无关方法

模型无关学习

这里写图片描述
这里写图片描述

Monte-Carlo & Temporal Difference; Q-learning

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

探索与利用

这里写图片描述

这里写图片描述

on-policy 和 off-policy

SARSA

这里写图片描述

Expected value SARSA

这里写图片描述

SARSA和Q-Learning对比

这里写图片描述

on-policy和off-policy对比

on-policy off-policy
Agent 可以选择动作 Agent 不能 选择动作
Most obvious setup Learning with exploration,playing without exploration
Agent always follows his own policy Learning from expert(expert is imperfect)
Learning from sessions(recorded data)
can’t learn from off-policy can learn from on-policy
SARSA Q-learning
more… Expected Value SARSA

经验回放

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80569105