马尔可夫决策过程

定义



 

一个很简单的只有3个状态和2个动作的MDP例子。



一个马尔可夫决策过程是一个4 - 元组 ,其中

                      S是状态的有限集合,

                      A是动作的有限集合(或者,As是处于状态s下可用的一组动作的有限集合),

                     表示 t时刻的动作 a 将导致马尔可夫过程由状态 s 在t+1 时刻转变到状态 s' 的概率 。

                      Ra(s,s') 表示以概率Pa(s,s')从状态 s 转变到状态 s' 后收到的即时奖励(或预计即时奖励)。

(马尔可夫决策过程理论实际上并不需要 S 或 A 这两个集合是有限的,但下面的基本算法假定它们是有限的。)

转载自http://blog.csdn.net/foxeatapple/article/details/6008686

猜你喜欢

转载自jeje2011.iteye.com/blog/1881004