强化学习笔记(二)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、强化学习概述

1.1 强化学习概述

通过从交互中学习来实现目标的计算方法
在这里插入图片描述三个方面:
1.感知:在某种程度上感知环境的状态
2.行动:可以采取行动来影响状态或者达到目标
3.目标:随着时间推移最大化累计奖励

强化学习交互过程:
在这里插入图片描述
历史是观察、行动和奖励的序列。
如下:
在这里插入图片描述
状态(state):一种用于确定接下来会发生的事情(行动,观察,奖励)
状态是关于历史的函数:
在这里插入图片描述策略(Policy)是学习智能体在特定时间的行为方式
是从状态到行动的映射
在这里插入图片描述
奖励(Reward):强化学习目标的标量

价值函数(Value Function)
状态价值是一个标量,用于定义对于长期来说是好的
价值函数是对于未来累计奖励的预测
用于评估在给定策略下的状态好坏。

在这里插入图片描述在这里插入图片描述

1.2 探索与利用

在这里插入图片描述在这里插入图片描述

1.3 多臂老虎机

在这里插入图片描述
收益估计:
1.通过对于某个老虎机臂进行n次动作来得到期望在这里插入图片描述增量实现:
在这里插入图片描述复杂度为o1

算法:
在这里插入图片描述Regret 函数(懊悔)
在这里插入图片描述total Regret 对于t次懊悔值加在一起求期望(累计的期望)
在这里插入图片描述
DKL 计算当前reward和真实reward的相似性

在这里插入图片描述在这里插入图片描述可知按照上述策略能够得到对数的收敛(随时间衰减的贪心策略)

总结:
在这里插入图片描述在这里插入图片描述

补充不同的探索方法
Combining Online and Offline Knowledge in UCT. Sylvain Gelly and David Silver. ICML 2007. Test-of-time award at ICML 2017

第二种算法:积极初始化
(高的初始化,使得下降,选择未探索的动作概率变高)
在这里插入图片描述
第三种:
可以根据多次探索后得到对应动作的价值分布
在这里插入图片描述
在这里插入图片描述如果对于某个动作具有很高的不确定性,那么我们就需要有更高概率选择它
(ua 表示对于动作a的不确定性)

对于UCB:
在这里插入图片描述
第四种:
对于上述问题,我们如何选择动作:
在这里插入图片描述伪代码如下:
通过数据,后验得到theta。然后选择最大的动作
在这里插入图片描述对于老虎机的具体为伪代码:(*)
在这里插入图片描述总结:
在这里插入图片描述在这里插入图片描述

1 在策略学习过程中,往往需要进行新策略探索与旧策略的利用,其目的分别是什么? 尝试不同策略已经洗策略提升/提升对旧策略的评估能力

2 使用增量式蒙特卡洛进行奖励值估计是的算法的空间复杂度降为O1

二、马尔科夫决策过程

2.1 马尔科夫过程(MP)

在一个时序过程中,如果 t + 1 时刻的状态仅取决于 t 时刻的状态 St 而与 t 时刻之前的任何状态都无关时,则认为 t 时刻的状态 St 具有马尔科夫性 。

若过程中的每一个状态都具有马尔科夫性,则这个过程具备马尔科夫性。具备了马尔科夫性的随机过程称为马尔科夫过程,又称马尔科夫链 (Markov chain)。

描述一个马尔科夫过程的核心是状态转移概率矩阵:

Pss′ = P [St+1 = s|St = s]

通常使用一个元组 ⟨S, P⟩ 来描述马尔科夫过程,其中 S 是有限数量的状态集,P 是状态转移概率矩阵。
状态转移矩阵如下:
其中每一行代表从某个状态到所有n个状态的转移概率值。(每一行的概率加起来为1)

从符合马尔科夫过程给定的状态转移概率矩阵生成一个状态序列的过程称为采样(sample)。采样将得到一系列的状态转换过程,本书我们称为状态序列 (episode)。
当状态序列的最后一个状态是终止状态时,该状态序列被称为是完整的状态序列(complete episode)。

2.2 马尔科夫奖励过程(MRP)

如果把奖励考虑进马尔科夫过程,则成为马尔科夫奖励过程(Markov reward process,MRP)
它由一割元组来表示:
⟨S, P, R, γ⟩
在这里插入图片描述收获(return)是一个马尔科夫奖励过程中从某一个状态 St 开始采样直到终止状态时所有
奖励的有衰减的之和。数学表达式如下:
在这里插入图片描述可知收获是对应状态序列中的某一时刻的状态的,计算从该状态开始到结束时所能获得的累计状态。

对于衰减系数:通过该系数使得后续某一状态对当前状态收获的贡献要小与其奖励。(避免计算收获时陷入循环无法求解,同时也反映了远期收获的不确定性,折扣计算)

补充:
1.短视:使得衰减系数=0,即某状态下的收获就是当前状态所获得的的奖励。
2.长远眼光:使得衰减系数=1,考虑所有的后续状态,即不衰减。

价值(value) 是马尔科夫奖励过程中状态收获的期望。
数学表达式如下:
在这里插入图片描述具体而言:从该状态开始依据状态转移概率矩阵采样生成一系列的状态序列,对每一个状态序列计算该状态的收获,然后对该状态的所有收获计算平均值得到一个平均收获。

补充:当采样生成的状态序列越多,计算得到的平均收获就越接近该状态的价值,因而价值可以准确地反映某一状态的重要程度。

价值函数:如果存在一个函数,给定一个状态能得到该状态对应的价值,那么该函数就被称为价值函数(value function)。价值函数建立了从状态到价值的映射。

对于计算价值函数:
v(s) = E [Rt+1 + γv(St+1)|St = s]

补充:推导如下:
在这里插入图片描述

对于上述公式可改写为如下(每一个状态都有上一个状态概率得到):
在这里插入图片描述(贝尔曼方程)

补充:它提示一个状态的价值由该状态的奖励以及后续状态价值按概率分布求和按一定的衰减比例联合组成。

转为矩阵形式:
在这里插入图片描述R为奖励,P为概率矩阵

计算这类问题的时间复杂度是 O(n3),其中 n 是状态的数量。
(求解逆矩阵大概为On3)

如果知道了每一个状态的价值,那么他就会沿着状态价值最高的方向前进。

2.3 马尔科夫决策过程(MDP)

(状态完全可观测,提供了一套为在结果部分随机,部分有决策者决定的过程)
马尔科夫奖励过程不涉及到个体行为的选择,因此需要引入马尔科夫决策过程。

马尔科夫决策过程(Markov decision process, MDP)是由 ⟨S, A, P, R, γ⟩ 构成的一个元组。
在这里插入图片描述
个体在给定状态下从行为集中选择一个行为的依据则称为策略 (policy),用字母 π 表示。
策略 π 是某一状态下基于行为集合的一个概率分布:
在这里插入图片描述当给定一个马尔科夫决策过程:M = ⟨S, A, P, R, γ⟩ 和一个策略 π,那么状态序列 S1, S2, . . .是一个符合马尔科夫过程 ⟨S, Pπ⟩ 的采样。

联合状态和奖励的序列 S1, R2, S2, R3, . . . 是一个符合马尔科夫奖励过程 ⟨S, Pπ, Rπ, γ⟩ 的采样。

马尔科夫决策过程中一个策略对应了一个马尔科夫过程和一个马尔科夫奖励过程。

由于不同的策略会产生一个不同的马尔科夫奖励过程与马尔科夫过程。
所以我们在这里扩展之前的价值函数:

价值函数 vπ(s) 是在马尔科夫决策过程下基于策略 π 的状态价值函数,表示从状态 s开始,遵循当前策略 π 时所获得的收获的期望,数学定义如下:
在这里插入图片描述同样对于行为,我们也定义一个行为价值函数qπ(s, a)
在这里插入图片描述(对于当前状态s执行某一行为a所能得到的收获的期望)
类似得到如下两个方程(与之前的推导类似):
在这里插入图片描述在这里插入图片描述
一个状态的价值可以用该状态下所有行为价值来表达:
在这里插入图片描述类似的,一个行为的价值可以用该行为所能到达的后续状态的价值来表达。
得到如下:
在这里插入图片描述对于行为a的价值等于他所有后续状态的价值的概率分布。

解决强化学习问题意味着要寻找一个最优的策略让个体在与环境交互过程中获得始终比其它策略都要多的收获,这个最优策略用 π∗ 表示。

最优状态价值函数(optimal value function)是所有策略下产生的众多状态价值函数中的最大者:
在这里插入图片描述最优行为价值函数(optimal action-value function)是所有策略下产生的众多行为价值函数中的最大者:
在这里插入图片描述策略 π 优于 π′(π ⩾ π′),如果对于有限状态集里的任意一个状态 s,不等式:vπ(s) ⩾vπ′(s) 成立。

最优策略可以通过最大化最优行为价值函数 q∗(s, a) 来获得:
在这里插入图片描述由此我们就将求解强化学习问题转变为求解最优行为价值函数的问题。
举例如图:
在这里插入图片描述
可知一个状态的最优价值是该状态下所有行为对应的最优行为价值的最大值。

(对于图 2.6 学生示例中的状态“第三节课”,可以选择的行为有“学习”和“泡吧”两个,其对应的最优行为价值分别为 10 和 9.4,因此状态“第三节课”的最优价值就是两者中最大的 10。)

在这里插入图片描述
基于动态规划的强化学习:
(当马尔科夫过程直接被我们所观测到时)

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

Guess you like

Origin blog.csdn.net/weixin_43869415/article/details/119607552