强化学习导论笔记:马尔科夫决策过程

这章讲的是马尔科夫决策过程(MDP),我们先来看一个图:


图中展示的就是一个MDP过程。一个agent和environment在一个离散的时间序列0-T中进行交互,假设$t\in [0,T]$。在时刻t时,这个agent会收到一些信息,我们称之为环境的状态(state)$S_{t}$,基于环境的状态,这个agent会选择一个动作(action)$A_{t}$。在一个时间步长之后$t+1$,agent选择的动作会造成一个结果,收到一个奖励(reward)$R_{t+1}$,与此同时,环境由于之前的动作,其状态也会发生改变,记为$S_{t+1}$。注意,这里是$R_{t+1}$和$S_{t+1}$,放生在时刻$t+1$,表明了奖励的滞后性。因此,我们可以得到一个关于状态,动作和奖励的序列:

然后,作者定义finite MDP是指状态、动作和奖励都是有限的元素。在这里,奖励和状态都遵循离散的概率分布,不是确定的值(这里可以回忆一下多臂赌博机中的奖励,也是遵循概率分布,并不是确定的值)!在时刻t时,可以得到下面两个公式:



第一个公式是一个条件概率,当t-1时刻的状态和动作分别为s和a的时候,得到奖励r和新状态s’的概率。第二个公式则表示的是这个概率分布的和为1。到这里,我想强调一下,概率p是有四个部分决定的:新状态的集合,奖励的集合,老状态的集合,动作集合。接下来是三个公式:

重点说第二个,我们可以看到状态s和动作a造成的奖励是一个期望(再次强调,期望是概率的加权值)。最后作者提到大部分基于MDP解决的decision-learning问题都包含有三个信号在agent和environment之间往返,即:动作,状态和奖励。

然后我们直接看一个例子Example3.3,一个可移动的机器人要完成一个在办公室中收集空瓶的工作。这个机器人有一个传感器可以探测饮料瓶,有一个机械臂可以抓取瓶子并放入垃圾桶中,这个机器人有一块儿可充电电池供电。这个机器人有两个状态S={high, low},分别对应能量的高低。机器人有三个动作:search,wait和recharge,当机器人的能量高时,机器人不需要充电,因此A(high)={search, wait}和A(low)={search, wait,recharge}。当机器人回收一个瓶子时,有一个奖励的值为正。当机器人耗尽能量时,有一个更大的奖励,但是值为负。这个例子其实是在展示一个MDP的例子,并且展示了transition graph应该怎么画。


这个图就展示的很清楚,agent在状态s,选择动作a,状态变成了s’,但是呢,需要注意,之前也提到过,这个状态是符合一个概率分布的。在这个例子中,如果s是high,动作是search,那么有$\alpha$的概率s’是high,$1-\alpha$的概率是low。

3.2 Goal和Reward








猜你喜欢

转载自blog.csdn.net/Liverpool_05/article/details/80927785
今日推荐