简述马尔科夫决策过程（下）

在上一篇文章中我们给大家介绍了很多关于马尔科夫决策知识，具体来说就是马尔科夫决策过程的特点、要求以及定义，这些内容都是能够帮助大家初步了解马尔科夫决策过程的。我们在这篇文章中详细为大家介绍关于马尔科夫决策过程的深度知识。希望这篇文章能够更好地帮助大家理解马尔科夫决策过程知识。

马尔科夫决策过程的定义我们已经给大家讲过了，但是定义是不容易理解的，下面我们就给大家简单的讲述马尔科夫决策过程的知识，其实也就是一个人的选择有两种，每一种选择都能够导致不同的后果，而且持续的选择也能够使得结果不同。长期的选择一种选择就能够做到更好的结果。马尔科夫决策过程的动态过程就是智能体（agent）初始状态S0，然后从A中挑选一个动作a0执行，agent按照概率Pa随机转移到下一个状态S1，然后再执行动作a1，就转移到了S2，以此类推，知道得到最后的结果。

于是问题来了，那么大家知道不知道怎么使得自己的奖励最大化呢？这就需要做一个决策，这个决策的目的就是能够让agent尽可能的得到最大化奖励。这就引出来，马尔科夫决策的关键目的就在于寻找一个最好的策略（一般用π表示）：对每个状态s，选择一个动作a，组成π中的一个<s，a> 。这个策略可以累积化最大收益R(T)，这里T代表了整个过程持续的时间。

那么怎么就选择最优的策略呢？其实马尔科夫决策过程就是一个与时间序列有关的过程，除非到达最终状态停止，不然每一次动作的执行，都会作为一个新的样本加入到训练数据中，为当前状态选择最优策略，且每一次动作的执行不能更改。到达终止状态后，就再重新开始，不管结局是什么样的。一般情况下都会根据一定数量的数据集先进行训练，而不是直接拿过来就开始选择的。有一个栗子那就是AlphaGo，都是提前和大师以及和自己训练很多次下棋之后，摸清了规律，发现赢下一盘棋的最优的策略，才能在与世界围棋冠军下的时候不害怕，每一步都根据当前状态找最好的落子。马尔科夫决策过程就是一个状态到动作的选择的过程。

我们在这篇文章中给大家详细介绍了关于马尔科夫决策过程的知识，对于非专业人士来说，很多人是不了解马尔科夫决策这个概念的。马尔科夫决策是人工智能技术相关的一环，学习、了解马尔科夫决策这个知识点，可以有效地帮助我们更好地运用人工智能技术。

简述马尔科夫决策过程（下）

猜你喜欢