有限马尔科夫决策过程（Finite Markov Decision Processes）

在这一章中我们介绍了贯穿本书的马尔科夫决策过程。这类问题包括评定性的反馈和关联因素（在不同的情况下选择不同的行为）。MDPs是进行序列决策的典型的形式化，在这里行为不仅影响即时的reward还影响接下来的情况。所以MDPs包含延迟报酬并且需要权衡即时reward和延迟reward。

3.1智能体环境接口（The Agent-Environment Interface）

MDPs就是解决为了目标从交互行动中学习问题的简洁的框架。学习者和决策制造者被叫做智能体，和它交互的系统成为环境。智能体当然选择反馈好的行为。

在有限马尔科夫决策中，状态，行为，和反馈都是有限集合里的。

几个重要的公式：

p(s',r | s, a) = Pr{St=s', Rt=r | St-1=s, At-1=a}

3.2目标和反馈(goals and Rewards)

用reward来表示目标和目的。我们用reward来表明我们的目的。reward信号是告诉机器人目标的方式，而不是应该如何做。

3.3返回和片段（Returns and Episodes）

到目前我们讨论了非正式的学习的目标。我们已经知道智能体的目标是最大化积累的reward，其中最大化的积累reward可以用return，用Gt表示。

Gt = Rt+1 + Rt+2 + RT,

T是最后的步数。有限步数的成为片段。片段之间是没有联系的。有片段的任务我们称之为片段任务。用s来表示非终点状态集合，有终点状态的用s+表示。

但是有些问题不能被分成片段，而是持续的没有边界。对于持续的return，它的值很容易成为无穷大。所以我们介绍了折扣（discounting）.

Gt = Rt+1 + rRt+2 +r^2Rt+3+'''

（r表示折扣因子 0<=r<=1）

也可以写作 Gt = Rt+1 + rGt+2

例子平衡摆杆

描述：使小车沿轨道走，不让摆杆倒下。如果倒下就使摆杆恢复到垂直位置。

1因为倒下就恢复到垂直状态，所以可以看做是片段任务，这时不使摆杆倒下的操作得到reward+1.

2也可以看做是连续任务，这时倒下得到result -1，其余result是0.

3.4片段和连续任务的统一标志（Unified Notation for Episodic and Continuing Tasks）

在前面我们学习了两种强化学习的问题，一种是片段任务，另一种是持续任务。我们现在考虑一个统一的方式来表示。

一种方式是用St,i 表示片段i的在t时刻的状态。但是现实中很少用这种。

另一种是把片段任务的结尾用环来结束。

3.5策略和值函数（Policies and value functions）

几乎所有的强化学习算法都包括值函数（或者状态行为对函数）的估计，它们表示着给定状态有多好。特定的选择行为的方式，也就是策略，直接影响了值函数。

正式地说，策略是从状态到采取行为概率的映射。，π（a|s）就表示在s状态采取a的概率。强化学习方法详述了智能体的策略是如何根据以往的经验改变的。

递推的贝尔曼方程

贝尔曼方程中有三个重要变量a, s' 和 r,对于每个（a,s',r）它的概率为π（a|s）p(s',r|s,a)。

贝尔曼方程展现了现在的状态和后来的状态之间的联系，回退图表（backup diagrams）形象地展现了强化学习核心的更新和回溯操作。

3.6最佳策略和最佳值函数

对于一个问题肯定有一个或者几个最佳策略，我们把最好的策略成为最佳策略，计作π*。他们有相同的最佳状态值函数，计作v*.

其中v* = max Vπ（s）。也有相同的行为值函数，计作q*(s, a),其中 q*(s, a) = max qπ(q, a).

3.7 最佳和近似值（Optimality and approximation）

我们已经定义了最佳值函数和最佳策略，显而易见，拥有最佳值函数的智能体表现的非常好，但实际上很少出现。对于这种类型的任务，最佳值函数只有通过消耗极大的运算资源才能得到。最佳的值函数是理想化的，它只能被从不同的方式接近。

可利用内存也是一个重要的限制。需要大量的内存建立值函数，策略，模型的接近值。在小的或者有限的状态中，利用队列和表是可能的，称为表方法。但在现实的许多情况下，有太多状态不可能用表来表示，在这些情况下，函数必须用参数化的函数被粗略接近。

3.8总结

强化学习是为了达到目的从与环境的交互中学习。智能体和他的环境在一系列分开的步骤中交互。action是智能体做出的选择，state是做选择的基础，reward是评定选择的基础，在智能体内部的都是已知和可控的，外部的是部分可控的，已知或未知的。策略是一个智能体用来从state中做出action的随机规则。当上面的强化学习有转移概率则成为马尔科夫决策过程。有限马尔科夫过程有有限的action ，reward，states。

return是智能体希望最大化的未来期望reward和，它不同的定义取决于问题的性质或者是否有折扣率。没有折扣因子的形式适合片段任务，这里环境-智能体自然的划分为不同的片段。有折扣因子的形式适合持续没有边界的问题。

最佳思想规划了我们学习的路线，并提供了理解不同学习算法的理论。但它只是一个理想化的情况，只能通过接近。在强化学习中我们十分关心那些不能找到最佳方法但能通过一些方法优化的问题。

Reinforcement Learning:An Introduction 第三章读书笔记