Lecture 2：Markov Decision Process -By David Silver

本文是自己学习David Silver课程的学习笔记：原视频可以在油管或者B站上搜到。

PPT的连接如下：http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html。网速慢的话可以点击这里。

上节课说了强化学习的思想就是agent与环境不断地交互从而产生很多数据，强化学习算法利用产生的数据修改自身的动作策略，再与环境交互，产生新的数据，并利用新的数据进一步地改善自身的行为，经过数次迭代学习之后，agent最终就能学会完成给定任务的最优解。

图像识别、语音识别等解决的是感知问题，强化学习解决的是决策问题。人工智能的终极目标就是结合感知实现智能决策。我们现在要想的第一个问题就是什么样的问题可以使用强化学习来解决，也就是我们要解决问题的框架是什么样子的。前人已近给出了，这个框架就是马尔可夫决策过程，英文是Markov decision processes简称（MDP）。这节课的笔记是先从Markov processes（马尔可夫过程），或者说是Markov chain（马尔可夫链）最基本的思想开始。当我们加入奖励到Markov processes中的话，我们就有了Markov Reward Processes，加入actions之后，就有了Markov Decision Process。如果你要使用强化学习解决问题的话，那么你的第一步就是使得你的问题转化为马尔可夫决策过程。如：在优化控制的问题当中，我们将数学模型转化为差分动力学问题，这里其实我们可以将其转化为连续的Markov Decision Process；正对部分可观测问题，我们不仅可以从MDP的角度考虑这些问题，实际上任何部分可观测问题都可被完全转换成MDP；还有一个问题就是Bandits，就只有一个state，像商品推荐系统，阿里就有团队在从事这方面相关的工作。

Markov Process

MDP的本质是什么？它其实是一个概念性的东西，叫做Markov Property，它的核心思想就是系统的下一个状态仅与当前状态有关，而与之前的状态无关：

另一种理解方式就是，对于任何拥有Markov Property的问题，你从某个state s开始，有一个后续状态，你实际上就可以定义从一个状态转移到下一个状态的概率，以一定的概率值转移到一定的后继状态。

一个Markov Process基本上是一个随机的过程，对于这个随机过程的定义是，有一个随机状态的序列，这个状态会具有类似于随机的状态序列s1,s2...这种。这个序列会具有Markov Property，这其实就是Markov Process的定义。定义这个序列所需要的仅是一个状态空间S和一个转移概率。截至到目前为止的这些定义里面没有actions，也没有rewards，整个的状态转移由转移概率矩阵中的状态空间来定义。举例来说的话就是下图，也称作马尔可夫链，里面没有涉及奖励和动作，只有状态转移概率。

我们可以从中sample episodes，sample一个序列，一个从初始状态到终止状态得到的状态序列。我们可以将上图转化为一个状态转移矩阵：

Markov Reward Process

截至到目前为止，我们还没有讨论过reinforcemnt learning，因为还没有rewards，没有actions。让我们加入一些机制。第一步我们先加入一些reward，这样Markov Process就变成了Markov Reward Process。其实就是带有Value判断的Markov Process，这些Value会告诉我们，这些状态有多好。所以我们需要给Markov Process添加两样东西reward function R和discount factor gamma。

R代表的是我们能够从这个state获得多少奖励，它只是当前的奖励，我们的目标是最大化累积的rewards的总量，这是我们在增强学习中所关心的，所以我们要构建Markov Reward Process，我们要把所有东西加在一起，但是对于R，它只是告诉我们，当前时刻这一步，时间在T这个时刻，状态s的时候，时间T+1可以获得改奖励。

这时，我们之前所讲的情况就会变成上图所示的情况。我们所关心的是在整个序列决策过程中，我们能够得到的奖励总和是多少。这个Gt才是我们强化学习的学习目标。

这里我们没有计算期望，G是随机的，这里的G只是一个样本。折扣因子决定的就是我们的agent是更喜欢现在的reward还是未来的reward。使用折扣因子的愿意是我们没有一个确定的model，也就是对未来的不确定性的估计。想象一下我们只是利用Markov Process来对环境进行建模，我们在构建这个Markov Proces，我们并没有一个关于环境的完美模型，然而我们认为我们已经提出一个很不错的计划，但我们不完全相信我们的评估。总的来说就是对环境的不确定性做出一个估计。

之前说了期望的问题，由于我们策略的随机性，导致我们的G也是随机的，因此我们无法用G来衡量一个状态的好坏。我们用Value function来评估一个状态的好坏。如果你在state s，你能得到的total reward将会是多少？因为在很多情况下，策略、环境是随机的，我们需要在随机的Markov process中进行状态的评估。

我们将状态值函数公式化的话就如上图所示，用于衡量在状态s可能得到的奖励是多少。让我们举个具体的例子的话就是下图所示：

我们以之前上课的例子计算c1的value，我们有四个不同的sample，它们的不同在于他们有不同的采样序列。我们的sample是随机的，并不是说我们的value也是随机的，而是这些随机变量的期望。

接下来我们讨论是强化学习里面比较重要的知识，在我们编写程序的时候可能会经常用到。它被称为Bellman方程，它的基本思想是对Value function进行递归分解。公式如下图所示：

用矩阵的形式来表示的话，我们的贝尔曼方程就能表示成下面的式子：

对于上面这个方程，它是一个线性的代数方程，我们可以很容易地将其求解出来。但是一旦遇到更加复杂的问题的话Markov Decision Process就不好做了。所以这种性质只利于评估reward的大小，一旦我们想要最大化我们的reward的话，事情会变得更难。但是在目前阶段我们是可以直接对其进行求解的。求解方式如下：