马尔可夫决策过程 Markov decision process, CMDP

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值
在这里插入图片描述
,该状态转移具有马尔可夫性质。

在这里插入图片描述
https://zhuanlan.zhihu.com/p/35354956

马尔可夫过程

https://zhuanlan.zhihu.com/p/30317123
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Anne033/article/details/108697243