【强化学习笔记】2 马尔可夫决策过程

【深入浅出强化学习原理入门学习笔记】2.马尔可夫决策过程

P [ S t + 1 | S t ] = P [ S t + 1 | S 1 , S 2 , S 3 , . . . , S t ] 即系统的下一个状态只与当前状态有关,与之前状态无关。

:随机变量序列中的每个状态都是马尔科夫的,是一个二元组 ( S , P ) , S 为有限状态集, P 是状态转移概率。

:将动作(策略)和回报考虑在内的马尔科夫过程,用元组表示是 ( S , A , P , R , γ ) , S 为有限状态集, A 为有限动作集, P 是状态转移概率(包含动作), R 为回报函数, γ 为回报折扣因子。

是给定一个马尔科夫决策过程,寻找最优策略,这里的策略是指 ,即: π ( a | s ) = p [ A t = a | S t = s ]
意思为:策略 π 在每一个状态 s 下指定一个动作概率,如果是一个确定的动作,该策略为确定性策略。

强化学习的策略一般是随机策略,智能体尝试其他动作以便找到更好的策略,所以引入概率因素。既然策略是随机的策略,那么状态变化序列可能不一样,因此累积回报也是随机的。

在给定的策略 π 的作用下,可以计算 G t ,
G t = R t + 1 + γ R t + 2 + . . . . = k = 0 γ k R t + k + 1
如果从某一状态 s 1 出发,可以得到不同的序列,然后得到不同的累积回报值。

为了评估策略 π 作用下状态 s 的价值,通过期望描述,定义为 ,表示是:
υ π ( s ) = E π [ k = 0 γ k R t + k + 1 | S t = s ]
基本意思是策略 π 作用下状态 s 后所有回报的加权和的均值。

在这里考虑的是马尔科夫决策过程,因此往往是评估在策略 π 和状态 s 下,某个行为 a 的价值,定义为 ,表示是
q π ( s , a ) = E π [ k = 0 γ k R t + k + 1 | S t = s , A t = a ]

可以推导出状态值函数和状态行为值函数的贝尔曼方程为:
υ π ( s ) = E π [ R t + 1 + γ υ ( S t + 1 ) | S t = s ]
q π ( s , a ) = E π [ R t + 1 + γ q ( S t + 1 , A t + 1 ) | S t = s , A t = a ]

为:
(1) υ π ( s ) = a A π ( a | s ) q π ( s , a )
这个式子的意思是:在状态 s 处的值函数等于采取策略 π 时,所有状态-行为值函数的总和。

(图形解释)
(2) q π ( s , a ) = R s a + γ s S P s s a υ ( s ) = R s a + γ s S P s s a a A π ( s , a ) q π ( s , a )
这个式子的意思是:在状态 s 处采取行为 a 的状态-行为值函数等于回报加上后续状态的值函数。

将式(2)带入式(1)
υ π ( s ) = a A π ( a | s ) ( R s a + γ s S P s s a υ ( s )
也就是说在状态 s 处的值函数 υ π ( s ) ,可以利用后续状态的值函数 υ ( s ) 来表示。

在所有策略中,使得值函数值最大的策略称之为最优策略,同时对应着最优状态值函数和最优状态-行为值函数,表示如下:
υ ( s ) = max π v π ( s )
q ( s , a ) = max π q π ( s , a )

可以得到最优状态值函数和最优状态-行为值函数的贝尔曼方程,表示如下:
υ ( s ) = max a R s a + γ s S P s s a υ ( s )
q ( s , a ) = R s a + γ s S P s s a max a q ( s , a )

如果知道最优状态-行为值函数,最优策略 π ( a | s ) 可以通过直接最大化 q ( s , a ) 确定,即:
π ( a | s ) = { 1   i f a = arg max a   q ( s , a ) 0   o t h e r s

这个策略为即为 ,仅仅考虑当前最优,是确定性策略。

常见的概率分布都是常见的随机策略。
1. ,这个是确定性策略
2. ϵ g r e e d y
π ( a | s ) = { 1 ϵ + ϵ / ( | A ( s ) | )   i f a = arg max a   q ( s , a ) ϵ / ( | A ( s ) | )   o t h e r s
3.
4.

参考文献
1. 深入浅出强化学习原理入门

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/79462535