1、表格型强化学习方法
状态值函数可以利用动态规划法,MC或者TD的方法计算得到。此时的值函数表达为一个表格。值函数迭代更新过程实际上就是对这张表格进行迭代更新。因此,以前的强化学习算法又称为表格型强化学习。若状态空间的维数很大,或者状态空间为连续空间,此时值函数无法用一张表格来表示。这时,需要采用函数逼近的方法表示值函数。
2、值函数逼近方法理论
当采用值函数逼近方法表示后,就可以利用策略迭代和值迭代方法了。在值函数逼近方法中。值函数对应着一个逼近函数
v^(s).
2.1 值函数逼近方法的分类
函数逼近方法可以分为线性(一般选定基函数)和非线性逼近(尤其是基于深度神经网络的方法),参数逼近和非参数逼近,一般使用参数逼近,本文主要介绍参数逼近方法(值函数可以由一组参数来近似),逼近的值函数写作
v^(s,θ)。
2.2、值函数逼近和表格型强化学习方法的比较
- 表格型强化学习在更新值函数时,只有当前状态
St处的值函数改变,其他地方的值函数不改变。
- 值函数逼近方法更新值函数的时候,更新的是参数θ,而估计的值函数为
v^(s,θ),所以当参数θ发生改变,任意状态处的值函数都会发生改变。
值函数逼近方法的优点:
- 可以降低输入维度,减少计算量
- 可以提高泛化能力,避免over-fitting。
- 可以使目标函数对于参数可微,使用基于梯度的计算方法。
2.3、参数化逼近
当逼近的值函数结构确定时,值函数的逼近等价于参数的逼近。值函数的更新也就等价于参数的更新。即,需要利用试验数据来更新参数值。值函数的更新过程是向着目标值函数靠近。
回顾一下表格型强化学习值函数的更新公式:
蒙特卡罗法:
Q(s,a)←Q(s,a)+α(Gt−Q(s,a))
TD方法:
Q(s,a)←Q(s,a)+α[r+γQ(s′,a′)−Q(s,a)]
TD(λ)方法:
Q(s,a)←Q(s,a)+α[Gtλ−Q(s,a)]
从以上公式中看出,无论是蒙特卡罗方法,还是时间差分法,都是朝着一个目标值更新的,这个目标值在蒙特卡罗方法中是
Gt,在时间差分法中是
r+γQ(s′,a′),在TD(λ)法中是
Gtλ。
而值函数逼近
v^(s,θ)是一个监督学习过程,其数据和标签对为
(St,Ut),其中
Ut等价于蒙特卡罗方法中的
Gt,TD方法中的
r+γQ(s′,a′),以及在TD(λ)法中的
Gtλ。
训练的目标函数为:
θargmin(q(s,a)−q^(s,a,θ))2
2.4、增量式学习方法
值函数更新可分为增量式更新和批量式学习方法,其中增量式方法餐宿合更新过程随机性比较大,尽管计算简单,但样本数据的利用效率并不高。而批量方法尽管计算复杂,但计算效率高。本文主要介绍增量式学习方法,其中随机梯度下降法是最常用的增量式学习方法。
随机梯度下降法: 由训练的目标函数得到参数的随机梯度更新为:
θt+1=θt+α[Ut−v^(St,θt)]∇θv^(St,θ) ,其中
θ的增量由三部分组成,分别是学习率α,误差
Ut−v^(St,θt),以及目标函数的梯度组成。
2.4.1、基于蒙特卡罗方法的函数逼近
给定要评估的策略π,产生一次试验:
值函数更新过程实际是一个监督学习过程,其中监督数据集从蒙特卡罗的试验中得到,数据集为
<s1,G1>,<s2,G2>,<s3,G3>,<s4,G4>,...,<sT,GT>。
值函数的更新为:
Δθ=α(Gt−v^(St,θ))∇θv^(St,θ)
其中α值比较小,在随机梯度下降法中,需要一个能平衡所有不同状态误差的值函数逼近。α值取得比较小可以维持这种平衡。
下面算法所示为基于梯度的蒙特卡罗值函数逼近更新过程。
注:在算法公式中的w就是本文提到的θ。
2.4.2、基于时间差分法的值函数逼近
根据之前的方程,TD(0)方法中目标值函数为
Ut=Rt+1+γv^(St+1),目标函数用到了bootstrapping的方法。参数更新公式为:
Δθ=α[Rt+1+γv^(St+1)−v^(St,θt)]∇v^(St,θt),更新的参数θ不仅出现在要估计的值函数
v^(St,θ)中,还出现在目标值函数
Ut中。若只考虑参数
θ对估计值函数
v^(St,θ)的影响,而忽略对目标值函数
Ut的影响,这种方法就不是完全的梯度法(只有部分梯度),称为基于半梯度的TD(0)值函数评估算法,算法伪代码如下:
2.4.3、值函数逼近的形式
值函数既可以采用线性逼近也可以采用非线性逼近。非线性逼近常用的是神经网络。
线性逼近:
公式:
v^(s,θ)=θTϕ(s),相比与非线性逼近,线性逼近的好处是只有一个最优值,因此可以收敛到全局最优。其中
ϕ(s)为状态s处的特征函数,或称为基函数。常用的基函数类型有:
- 多项式基函数,如:
(1,s1,s2,s1s2,s12,...)
- 傅里叶基函数:
ϕi(s)=cos(iπs),s∈[0,1]
- 径向基函数:
ϕi(s)=e−2σi2∣∣s−ci∣∣2
将线性逼近值函数代入随机梯度下降法和半随机梯度下降法中,可以得到参数的更新公式:
- 蒙特卡罗法的参数更新公式:
Δθ=α(Gt−v^(St,θ))∇θv^(St,θ)=α[Gt−θTϕ]ϕ
- TD(0)线性逼近值函数更新为:
Δθ=α(R+γθTϕ(s′)−θTϕ(s)]ϕ(s)
- 正向视角的TD(λ)更新为:
Δθ=α(Gtλ−θTϕ)ϕ
- 后向视角的TD(λ)更新为:
Δθ=αδtEt,δt=Rt+1+γθTϕ(s′)−θTϕ(s),Et=γλEt−1+ϕ(s)
2.5、批量式方法
所谓批量式的方法是指给定经验数据集
D={<s1,v1π>,<s2,v2π>,...,<sT,vTπ>},找到最好的拟合函数
v^(s,θ),使得
LS(θ)=t=1∑T(vtπ−v^tπ(st,θ))最小。
可以利用线性最小二乘逼近:
Δθ=t=1∑T(vtπ−θTϕ(st))ϕ(st)=0
5. 最小二乘法蒙特卡罗方法参数为:
θ=(t=1∑Tϕ(st)ϕ(st)T)−1t=1∑Tϕ(st)Gt
6. 最小二乘差分方法:
θ=(t=1∑Tϕ(st)(ϕ(st)−γϕ(st+1))T)−1t=1∑Tϕ(st)Rt+1
7. 最小二乘TD(λ)方法:
θ=(t=1∑TEt(ϕ(st)−γϕ(st+1))T)−1t=1∑TEtRt+1
3、DQN
DQN是深度强化学习(DRL)的开山之作,它是将深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。两篇Nature上的奠基性论文(DQN和AlphaGo)使得此交叉方向变得炙手可热,成功地开创了新的方向,既具有极大学术价值也具有很高的商业价值。
3.1、DQN的基本思路
- 深度学习的成果,比如CNN,极大地增强了DL处理raw pixel数据的信心。DQN中的输入采用的是原始图像数据,这是DQN最有意义的一步。
- DQN的算法对所有游戏是通用的(甚至超参数也是通用的),而这种通用性的重要基础之一就是它能使用raw pixels。
- 它的关键步骤在于experience replay。其主要作用是克服经验数据的相关性(correlated data)和非平稳分布(non-stationary distribution)问题。
对Q学习的修改:
DQN中的CNN作用是对在高维且连续状态下的Q-Table做函数拟合。而对于函数优化问题,监督学习的一般方法是先确定Loss Function,然后求梯度,使用随机梯度下降等方法更新参数。DQN是基于Q-Learning来确定Loss Function。DQN对Q-learning的修改主要体现在三个方面:
- DQN利用深度卷积神经网络逼近值函数
- DQN利用了经验回放对强化学习的学习过程进行训练
- DQN独立设置了目标网络来单独处理时间差分算法中的TD偏差。
3.2、DQN第一版本思路-构造目标函数
- DQN是基于Q-learning来确定Loss Function。
- Q-learning的更新公式:
Q′(s,a)=Q(s,a)+α(r+γmaxQ(s′,a′)−Q(s,a))
- DQN的Loss Function为
L(θ)=E[(TargetQ−Q(s,a;θ))2]
- 其中θ是网络参数,目标为
TargetQ=r+γa′maxQ(s′,a′;θ)
- Loss Function是基于Q-learining更新公式的第二项确定的,都是使当前的Q值逼近Target Q值
- 然后求L(θ)关于θ的梯度,使用SGD等方法更新网络参数θ。
3.2.1、DQN思路—经验池
经验池的功能主要是解决相关性及非静态分布的问题。及具体做法是把每个时间步agent与环境交互得到的转移样本存放在回放记忆单元,要训练时就随机拿出一些(minibatch)来训练。其实就是将游戏的过程打成碎片存储,训练时随机抽取就避免了相关性问题。这样至少有两个好处:
- 数据利用率高,因为一个样本被多次使用。
- 连续样本的相关性会使参数更新的方差(variance)比较大,该机制可减少这种相关性。
3.2.2、DQN网络模型
输入的是被处理成灰度图的最近4帧84×84图像,经过几个卷积层(没有池化层)后接两个全连接层,输出是所有动作的Q值。
3.2.3、DQN算法描述
- 用一个深度神经网络来作为Q值的网络,参数为ω:
Q(s,a,ω)≈Qπ(s,a)。
- 在Q值中使用均方差来定义目标函数objective function:
L(ω)=E[(r+γ×amaxQ(s′,a′,ω)−Q(s,a,ω)2)]
- 计算参数ω关于loss function的梯度:
∂ω∂L(ω)=E[(r+γamaxQ(s′,a′,ω)−Q(s,a,ω))∂ω∂Q(s,a,ω)]
- 使用SGD实现End-to-end的优化目标
网络的输入是4个84×84的灰度游戏屏幕。输出是每一个可能动作的Q值(Atari中有18个动作)。
DQN网络结构图如下:
DQN_V1的伪代码:
代码解读:
- 第一行,初始化回放记忆D,可容纳的数据条数为N;
- 第二行,利用随机权值θ初始化Q函数
- 第三行,循环每个episode
- 第四行,初始化episode的第一个状态s1通过预处理得到状态对应的特征输入(特征是状态的函数)
- 第五行,循环每个时间的每一步
- 第六行,利用概率ε选一个随机动作
at
- 第七行,若小概率时间没有发生则用贪婪策略选择当前值函数最大的那个动作(注:第六行和第七行用到的
ϵ−greedy策略)
- 第八行,在仿真器中执行动作
at,观察回报
rt以及图像
xt+1
- 第九行,设置
st+1=st,at,xt+1,预处理
ϕt+1=ϕ(st+1)
- 第十行,将转换
(ϕt,at,rt,ϕt+1)存储在回放记忆D中;
- 第十一行,从回放记忆D中均匀随机采样一个转换样本数据,用
(ϕj,aj,rj,ϕj+1)表示;
- 第十二行,判断是否是一个事件的终止状态,若是则TD目标为
rj,否则利用TD目标网络
θ−计算TD目标
r+γa′maxQ(s′,a′;θ−)
- 第十三行,执行一次梯度下降算法:
Δθ=α[r+γa′maxQ(s′,a′;θ)−Q(s,a;θ)]∇Q(s,a;θ)
- 第十四行,结束每次事件内循环
- 第十五行,结束事件之间的循环
3.3、DQN第二版本
3.3.1、算法实现
Nature2015文章,对DQN作了改进和完善,其中对于算法上的变化最主要是引入了单独的Q函数网络,用另一个网络(称为TargetNet)产生Target Q值。
Q(s,a;θi)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数;
Q(s,a;θi−)表示TargetNet的输出,代入这里求TargetQ值的公式中得到目标Q值。
TargetQ=r+γa′maxQ(s′,a′;θ),根据之前的Loss Function更新MainNet的参数,每经过N轮迭代,将MainNet的参数复制给Target。引入TargetNet后,再一段时间里目标Q值是保持不变的,一定程度降低了当前Q值和目标Q值的相关性,提高了算法稳定性。算法如下:
与DQN_V1算法的区别是,在第一版本的基础上进行了改进,第三行有两个网络的初始权值一致即:
θ−=θ,在倒数第五行中梯度下降算法为
Δθ=α[r+γa′maxQ(s′,a′;θ−)−Q(s,a;θ)]∇Q(s,a;θ),倒数第三行中每隔C步更新一次TD目标权值,即
θ−=θ。
3.3.2、Loss Function的构造