Q-learning
Q表示的是,在状态s下采取动作a能够获得的期望最大收益,R是立即获得的收益,而未来一期的收益则取决于下一阶段的动作。
更新公式 Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是学习率, \gamma 是衰减函数
Q learning 是一个off-policy 的RL 算法.
Sarsa: on-policy 算法
更新公式: Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],
区别:Sarsa是保守的策略, Q-learning 是大胆,全局最优的策略
参考链接:https://www.zhihu.com/question/26408259/answer/123230350
https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com
https://blog.csdn.net/qq_39004117/article/details/81705845