【深入浅出强化学习原理入门学习笔记】2.马尔可夫决策过程
马尔科夫性
:
P[St+1|St]=P[St+1|S1,S2,S3,...,St]
即系统的下一个状态只与当前状态有关,与之前状态无关。
马尔科夫过程
:随机变量序列中的每个状态都是马尔科夫的,是一个二元组
(S,P)
,
S
为有限状态集,
P
是状态转移概率。
马尔可夫决策过程
:将动作(策略)和回报考虑在内的马尔科夫过程,用元组表示是
(S,A,P,R,γ)
,
S
为有限状态集,
A
为有限动作集,
P
是状态转移概率(包含动作),
R
为回报函数,
γ
为回报折扣因子。
强化学习的目标
是给定一个马尔科夫决策过程,寻找最优策略,这里的策略是指
从状态到行动的映射
,即:
π(a|s)=p[At=a|St=s]
,
意思为:策略
π
在每一个状态
s
下指定一个动作概率,如果是一个确定的动作,该策略为确定性策略。
强化学习的策略一般是随机策略,智能体尝试其他动作以便找到更好的策略,所以引入概率因素。既然策略是随机的策略,那么状态变化序列可能不一样,因此累积回报也是随机的。
在给定的策略
π
的作用下,可以计算
累积回报
Gt
,
Gt=Rt+1+γRt+2+....=∑∞k=0γkRt+k+1
如果从某一状态
s1
出发,可以得到不同的序列,然后得到不同的累积回报值。
为了评估策略
π
作用下状态
s
的价值,通过期望描述,定义为
状态值函数
,表示是:
υπ(s)=Eπ[∑∞k=0γkRt+k+1|St=s]
,
基本意思是策略
π
作用下状态
s
后所有回报的加权和的均值。
在这里考虑的是马尔科夫决策过程,因此往往是评估在策略
π
和状态
s
下,某个行为
a
的价值,定义为
状态−行为值函数
,表示是
qπ(s,a)=Eπ[∑∞k=0γkRt+k+1|St=s,At=a]
,
可以推导出状态值函数和状态行为值函数的贝尔曼方程为:
υπ(s)=Eπ[Rt+1+γυ(St+1)|St=s]
qπ(s,a)=Eπ[Rt+1+γq(St+1,At+1)|St=s,At=a]
状态值函数与状态−行为值函数的关系
为:
(1)
υπ(s)=∑a∈Aπ(a|s)qπ(s,a)
这个式子的意思是:在状态
s
处的值函数等于采取策略
π
时,所有状态-行为值函数的总和。
(图形解释)
(2)
qπ(s,a)=Ras+γ∑s′∈SPass′υ(s′)=Ras+γ∑s′∈SPass′∑a′∈Aπ(s′,a′)qπ(s′,a′)
这个式子的意思是:在状态
s
处采取行为
a
的状态-行为值函数等于回报加上后续状态的值函数。
将式(2)带入式(1)
υπ(s)=∑a∈Aπ(a|s)(Ras+γ∑s′∈SPass′υ(s′))
也就是说在状态
s
处的值函数
υπ(s)
,可以利用后续状态的值函数
υ(s′)
来表示。
在所有策略中,使得值函数值最大的策略称之为最优策略,同时对应着最优状态值函数和最优状态-行为值函数,表示如下:
υ∗(s)=maxπvπ(s)
q∗(s,a)=maxπqπ(s,a)
可以得到最优状态值函数和最优状态-行为值函数的贝尔曼方程,表示如下:
υ∗(s)=maxaRas+γ∑s′∈SPass′υ∗(s′)
q∗(s,a)=Ras+γ∑s′∈SPass′maxa′q∗(s′,a′)
如果知道最优状态-行为值函数,最优策略
π∗(a|s)
可以通过直接最大化
q∗(s,a)
确定,即:
π∗(a|s)={1 ifa=argmaxa q∗(s,a)0 others
这个策略为即为
贪婪策略
,仅仅考虑当前最优,是确定性策略。
常见的概率分布都是常见的随机策略。
1.
贪婪策略
,这个是确定性策略
2.
ϵ−greedy策略
π∗(a|s)={1−ϵ+ϵ/(|A(s)|) ifa=argmaxa q∗(s,a)ϵ/(|A(s)|) others
3.
高斯策略
4.
玻尔兹曼分布
参考文献
1. 深入浅出强化学习原理入门