强化学习Q-learning 和 Sarsa

其他 2018-12-05 11:21:37 阅读次数: 0

Q-learning

Q表示的是，在状态s下采取动作a能够获得的期望最大收益，R是立即获得的收益，而未来一期的收益则取决于下一阶段的动作。

更新公式 Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是学习率， \gamma 是衰减函数
Q learning 是一个off-policy 的RL 算法.

Sarsa: on-policy 算法

更新公式： Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],

区别：Sarsa是保守的策略， Q-learning 是大胆，全局最优的策略

参考链接：https://www.zhihu.com/question/26408259/answer/123230350

https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com

https://blog.csdn.net/qq_39004117/article/details/81705845

猜你喜欢

转载自www.cnblogs.com/baiting/p/10069768.html

强化学习Q-learning 和 Sarsa

强化学习中的无模型基于值函数的 Q-Learning 和 Sarsa 学习

【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

利用MATLAB的强化学习工具箱实现Q-Learning和SARSA算法

基于时态差分法的强化学习：Sarsa和Q-learning

Paddle强化学习从入门到实践（Day2）基于表格的方法：Sarsa和Q-learning

强化学习(五)：Sarsa算法与Q-Learning算法

强化学习算法：Q-learning与Sarsa（区别与联系）

强化学习中Q-learning和SARSA的区别，以及与马尔可夫决策过程，贝尔曼方程之间的关系

《强化学习》中的时序差分控制：Sarsa、Q-learning、期望Sarsa、双Q学习 etc.

强化学习算法学习汇总笔记 (一) — Q-learning、Sarsa、DQN、Policy Gradients

强化学习(五) - 无模型学习(Sarsa、Q-Learning)

深度学习 lab16 强化学习笔记(Q-learning sarsa flappy bird)

Bourne强化学习笔记2：彻底搞清楚什么是Q-learning与Sarsa

MATLAB强化学习入门——二、网格迷宫、Q-learning算法、Sarsa算法

强化学习 Sarsa & Q-learning：on & off policy策略下的时序差分控制

强化学习的Sarsa与Q-Learning的Cliff-Walking对比实验

强化学习（五）——Sarse和Q-learning

强化学习Q-learning、DCN和PPO

Reinforcement Learning(强化学习)Sarsa/Q_learning

什么是sarsa, sarsa与q-learning的区别

MATLAB强化学习工具箱(一)-在网格环境中使用Q-learning and SARSA

强化学习基础篇[2]：SARSA、Q-learning算法简介、应用举例、优缺点分析

强化学习Sarsa

强化学习之sarsa 和qlearning 实现

强化学习和Q-learning在实际应用中的价值 Reinforcement learning and Qlearning fundamentals

时间差分方法Q-learning和sarsa的区别

【深度强化学习】Q-learning 和贝尔曼方程

【强化学习】Sarsa+Sarsa-lambda(Sarsa(λ))算法详解

Q-learning与Sarsa算法的区别

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)