强化学习Q-learning 和 Sarsa

Q-learning 

Q表示的是,在状态s下采取动作a能够获得的期望最大收益,R是立即获得的收益,而未来一期的收益则取决于下一阶段的动作。

更新公式  Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是学习率, \gamma 是衰减函数
Q learning 是一个off-policy 的RL 算法.

Sarsa: on-policy 算法

更新公式: Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],

区别:Sarsa是保守的策略, Q-learning 是大胆,全局最优的策略

参考链接:https://www.zhihu.com/question/26408259/answer/123230350

https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com

https://blog.csdn.net/qq_39004117/article/details/81705845

猜你喜欢

转载自www.cnblogs.com/baiting/p/10069768.html