强化学习（五）——Sarse和Q-learning - 代码天地

强化学习（五）——Sarse和Q-learning

其他 2020-01-24 12:17:17 阅读次数: 0

前言

Sarse和Q-learning：类属于时序差分方法，因此就不难理解，两者对价值函数的更新公式中，都是先对当前时刻的收获 $G(t)$ 进行了近似。既然是时序差分方法的大家庭，那两种方法也都是无模型的强化学习，即agent对环境的状态转移概率是未知的，需要与环境互动，生成样本。其中，Sarse是时序差分在线控制算法，Q-learning是时序差分离线控制算法。
离线算法和在线算法：在线和离线，指的是policy上的在线和离线，即off-policy和on-policy。分类的依据是生成样本的policy和学习使用的policy是否是一样的。一样的就认为是在线算法，不一样就认为是离线算法。Sarse生成样本和学习都是使用e-贪婪策略，但是Q-learning生成样本使用e-贪婪策略，学习策略（估计Q函数）使用的是贪婪策略。这在算法中可以看出。

Sarse

参看Sarse博文
 作者实现代码

单步Sarse：一开始所有状态动作价值初始化为0。首先，利用e-贪婪算法根据当前状态选取当前动作，执行后得到新状态和奖励，再根据新状态继续使用e-贪婪算法选取新动作，随后更新状态动作价值函数，并以新状态和新动作替换当前的状态和动作。以此迭代直到状态动作价值函数收敛。
多步Sarse：参看多步Sarse，从伪代码看，Sarse和时序差分方法主要区别是，时序差分方法更新的是状态价值函数，Sarse更新的是动作状态价值函数。但是两者多步的实现算法基本一致，过程中都需要存储 <当前状态，当前动作，下一个状态，下一个动作>。累计到一定阈值后，利用该存储去更新价值函数。

Q-learning

参看博文Q-learning

Q-learning：首先，利用e-贪婪算法根据当前状态选取当前动作，执行后得到新状态和奖励，根据新状态使用贪婪算法选取新动作，根据新动作的价值函数来更新当前动作价值。以新状态替换当前状态。以此迭代直到动作价值函数收敛。
实现代码也与Sarse仅有较小的区别，此处不再说明。

两者的区别和联系

从算法实现来看，Sarse至始至终都是一种选择动作的方法：e-贪婪算法。然而Q-learning执行动作的选取是用e-贪婪算法，更新Q函数用贪婪算法得到的新动作价值。这也就是为什么，我们说，Q-Learning直接学习的是最优策略，而SARSA在学习最优策略的同时还在做探索。
这两种方法，都意味着在求解过程需要对一张的动作状态价值表进行更新存储。当动作状态非常多，甚至是连续情况，那么这两种方法都不再适用。下一节学习如何用神经网络来进行Q-learning。

2014乘风破浪2014

发布了164 篇原创文章 · 获赞 69 · 访问量 18万+

私信关注

猜你喜欢

转载自blog.csdn.net/wqy20140101/article/details/89670995

强化学习（五）——Sarse和Q-learning

强化学习(五)：Sarsa算法与Q-Learning算法

强化学习Q-learning 和 Sarsa

强化学习Q-learning、DCN和PPO

强化学习 Q-learning

强化学习之Q-learning

强化学习-Q-learning

强化学习-Q-Learning算法

强化学习Q-learning

强化学习——Q-learning算法

强化学习笔记：Q-learning

强化学习Q-learning实践

强化学习Q-learning入门

强化学习(五) - 无模型学习(Sarsa、Q-Learning)

强化学习和Q-learning在实际应用中的价值 Reinforcement learning and Qlearning fundamentals

强化学习-Q-learning学习笔记

强化学习 Q-learning 小例子

【强化学习】Q-Learning算法详解

强化学习之Q-learning简介

[ 强化学习 ] —— 基础知识：(1) Q-learning

强化学习之Q-learning算法

王权富贵：强化学习Q-learning

【强化学习】python 实现 q-learning 例二

【强化学习】python 实现 q-learning 例三

通过 Q-learning 深入理解强化学习

强化学习（一）Q-Learning/DQN之CartPole

强化学习Q-learning的理解与python实现

强化学习算法：Q-learning与Sarsa（区别与联系）

强化学习之Q-Learning（附代码）

强化学习 Q-learning 实例详解

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)