强化学习导论笔记：马尔科夫决策过程

这章讲的是马尔科夫决策过程(MDP)，我们先来看一个图:

图中展示的就是一个MDP过程。一个agent和environment在一个离散的时间序列0-T中进行交互，假设$t\in [0,T]$。在时刻t时，这个agent会收到一些信息，我们称之为环境的状态（state）$S_{t}$，基于环境的状态，这个agent会选择一个动作（action）$A_{t}$。在一个时间步长之后$t+1$，agent选择的动作会造成一个结果，收到一个奖励（reward）$R_{t+1}$，与此同时，环境由于之前的动作，其状态也会发生改变，记为$S_{t+1}$。注意，这里是$R_{t+1}$和$S_{t+1}$，放生在时刻$t+1$，表明了奖励的滞后性。因此，我们可以得到一个关于状态，动作和奖励的序列：

然后，作者定义finite MDP是指状态、动作和奖励都是有限的元素。在这里，奖励和状态都遵循离散的概率分布，不是确定的值（这里可以回忆一下多臂赌博机中的奖励，也是遵循概率分布，并不是确定的值）！在时刻t时，可以得到下面两个公式：

第一个公式是一个条件概率，当t-1时刻的状态和动作分别为s和a的时候，得到奖励r和新状态s’的概率。第二个公式则表示的是这个概率分布的和为1。到这里，我想强调一下，概率p是有四个部分决定的：新状态的集合，奖励的集合，老状态的集合，动作集合。接下来是三个公式：

重点说第二个，我们可以看到状态s和动作a造成的奖励是一个期望（再次强调，期望是概率的加权值）。最后作者提到大部分基于MDP解决的decision-learning问题都包含有三个信号在agent和environment之间往返，即：动作，状态和奖励。

然后我们直接看一个例子Example3.3，一个可移动的机器人要完成一个在办公室中收集空瓶的工作。这个机器人有一个传感器可以探测饮料瓶，有一个机械臂可以抓取瓶子并放入垃圾桶中，这个机器人有一块儿可充电电池供电。这个机器人有两个状态S={high, low}，分别对应能量的高低。机器人有三个动作：search，wait和recharge，当机器人的能量高时，机器人不需要充电，因此A(high)={search, wait}和A(low)={search, wait,recharge}。当机器人回收一个瓶子时，有一个奖励的值为正。当机器人耗尽能量时，有一个更大的奖励，但是值为负。这个例子其实是在展示一个MDP的例子，并且展示了transition graph应该怎么画。

这个图就展示的很清楚，agent在状态s，选择动作a，状态变成了s’，但是呢，需要注意，之前也提到过，这个状态是符合一个概率分布的。在这个例子中，如果s是high，动作是search，那么有$\alpha$的概率s’是high，$1-\alpha$的概率是low。

3.2 Goal和Reward

强化学习导论笔记：马尔科夫决策过程

猜你喜欢