强化学习笔记（四） - 代码天地

强化学习笔记（四）

企业开发 2022-03-23 11:09:03 阅读次数: 0

Sarsa

在线学习(On-Policy): 说到做到, 亲自参与训练过程, 不是模拟选择, 直接选择行为执行

Sarsa 算法

初始化 Q(s, a) 为任意值
重复以下步骤 (每个训练回合):
	初始化状态 s
	从状态 s 中根据来源于 Q 的策略选择行为 a (例如: ε-greedy  ε=0.9: 90%情况取最优行为, 10% 情况随机采取行为)
	重复以下步骤 (单个回合中的每一步):
		执行行为 a, 观察奖励 r, 下一状态 s'
		从状态 s' 中根据来源于 Q 的策略选择行为 a' (例如: ε-greedy  ε=0.9: 90%情况取最优行为, 10% 情况随机采取行为)
		更新 Q(s, a): Q(s, a) <- Q(s, a) + α * [r + γ * Q(s', a') - Q(s, a)] 
		(α: 学习效率, 表示单次差距有多少被学习, γ: 衰减因子, Q 现实: r + γ * max(Q(s', a')), Q 估计: Q(s, a))
		更新下一状态 s' 为当前状态 s, 更新下一状态 a' 为当前状态 a
	直到状态 s 全部结束

Sarsa 与 Q-Learning 不同之处在于: 在更新计算 Q 值时, Sarsa 已经定下了下一步的行为, 并且在更新 Q 值之后, 下一步一定会去执行这个行为; 而 Q-Learning 在更新 Q 值时, 计算时用到了下一个环境中具有最大的 Q 值的行为, 但在下一环境中, Q-Learning 仅仅有 90% 的概率, 按照最大 Q 值原则去执行这个行为, 而不是一定去执行这个行为
Sarsa 算法有点胆小保守, 因为是实际执行, 模型会规避很多风险, 而不是直接选择有风险但最为直接的行为

猜你喜欢

转载自blog.csdn.net/weixin_40042498/article/details/113884918

强化学习笔记（四）

强化学习笔记

强化学习笔记四 DP, MC, TD小结

强化学习学习笔记

强化学习的学习笔记

强化学习复习笔记

强化学习入门笔记

深度强化学习笔记

强化学习笔记整理

RLChina强化学习笔记

强化学习笔记（二）

强化学习笔记（一）

强化学习笔记（五）

强化学习笔记（三）

强化学习笔记：DDPG

强化学习笔记（六）

强化学习系列（四）：动态规划

强化学习入门学习笔记

机器学习笔记（八）：强化学习

深度学习-强化学习概述笔记

机器学习：李宏毅深度强化学习笔记（四）Sparse Reward

强化学习之决策论——笔记

【强化学习笔记】1.绪论

强化学习基础概念笔记

强化学习笔记1 （20181027）

强化学习笔记二 MDP & DP

强化学习笔记2—环境搭建

强化学习笔记3—DP

强化学习笔记1——MDP

强化学习复习笔记 - DEEP

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)