强化学习笔记1——MDP

强化学习概述

深度学习如图像识别和语音识别解决的是感知问题,而强化学习相当于大脑,解决的是智能决策问题或者说序贯决策问题,就是随着环境的变化连续不断的作出决策,实现最终的目标。

强化学习最初应用在倒立摆问题上,这里的决策是指应该给台车施加什么方向、多大的力,使倒立摆系统收敛到目标点即保持竖直。

马尔科夫决策过程MDP

强化学习方法适用于马尔科夫决策过程,所要解决的问题要满足马尔科夫性。即系统的下一个状态St+1仅与当前的状态St有关,而与之前的状态无关。

1、马尔科夫决策过程

马尔科夫决策过程由(S, A, P, R, γ)描述,其中S为有限的状态集;A为有限的动作集;P为状态转移概率,它是包含动作的, = P[St+1 = s'|St = s, At = a];R为回报函数;γ为折扣因子,用来计算累积回报。

2、策略π(a|s)

强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略。所谓策略是指状态到动作的映射,通常用π表示,它是指给定状态s时,动作集上的一个分布:π(a|s)=p[At=a|St=s]。这里的最优是指得到的总回报最大。

3、累积回报Gt

当有策略π后,就可以计算累积回报了。时刻t之后得到的累积回报定义如下:

Gt = Rt+1 + γRt+2+···= 其中γ为折扣因子表示将来奖励的影响程度,当γ=0时,只用即时奖励来评判。由于π是随机的,所以Gt为随机变量。

4、状态值函数Vπ(s)与状态行为值函数Qπ(s,a)

用状态值函数Vπ来评价某一状态s的价值,Vπ越大表明选取这个状态越好。Vπ(s)具体定义为,使用策略π进行实验,从状态s出发一直到终止状态 期间所得到的累积回报,即Vπ(s) = Eπ[|St=s] = Eπ[Gt|St=s]

定义状态行为值函数Qπ(s,a)来评价某一状态时发出的动作a的价值。Qπ(s,a)越大表明在状态s下选取动作a越好。具体定义为从状态s出发,执行动作a后再使用策略π所带来的累积奖赏。Qπ(s,a) = Eπ[|St=s, At=a]

5、贝尔曼方程

1、当=1时,

=1时,即在策略π下当发出一个动作后会到达一个确定的状态si,已知之后每个状态的值函数Vi,并且有相应的回报ri

有:Qπ(s0,ai) = ri+γVi(s'); Vπ(s0) = Σapi·Qπ(s0,ai) = Σaπ(a|s)·Qπ(s0,ai);

则:Vπ(s0) = Σaπ(a|s)·(ri+γVi(s')) Qπ(s0,ai) = ri+γΣaπ(a|s)·Qπ(s',ai)

2、当

时,发出动作a之后,可能转移到三个不同的状态。

有:Qπ(s0,ai) = ri+γ·Σs'·Vi(s'); Vπ(s0) = Σapi·Qπ(s0,ai) = Σaπ(a|s)·Qπ(s0,ai);

则:Vπ(s0) = Σaπ(a|s)·(ri+γ·Σs'·Vi(s'))

猜你喜欢

转载自www.cnblogs.com/xiao-qian-/p/10300729.html
今日推荐