强化学习(尔) - 马尔科夫决策过程

马尔科夫决策过程

Makov的定义

下一个状态的产生只和当前的状态有关,即:
在这里插入图片描述
本来直观上讲,下一个状态的产生跟所有历史状态是有关的,也就是等式右边所示。但是Markov的定义则是忽略掉历史信息,只保留当前状态的信息来预测下一个状态,这就叫Markov


状态转移概率

对于一个具体的状态s和它的下一个状态s’ ,它们的状态转移概率(就是从s转移到s’的概率)定义为:
在这里插入图片描述
假如总共有n种状态可以选择。那么状态转移矩阵P定义为:
在这里插入图片描述
矩阵中第 i 行表示:当前状态为 i i i ii i q(s,a):在所有的策略中产生的状态动作价值函数中最大的那个函数。
在这里插入图片描述

贝尔曼最优方程
在这里插入图片描述
v 描述了处于一个状态的长期最优化价值,即在这个状态下考虑到所有可能发生的后续动作,并且都挑选最优的动作来执行的情况下,这个状态的价值
q 描述了处于一个状态并执行某个动作后所带来的长期最优价值,即在这个状态下执行某一特定动作后,考虑再之后所有可能处于的状态并且在这些状态下总是选取最优动作来执行所带来的长期价值。

由上面的公式可以,要求最优值需要一步步迭代计算,是一个递归过程。具体在代码中怎么计算,就要使用到价值迭代策略迭代Q-learningSarsa等。


附:参考马尔科夫决策过程



        </div>

猜你喜欢

转载自blog.csdn.net/wei2white/article/details/83745600