强化学习基础总结（三）

@(Machine Learning)

覆盖以下几个主题：

Markov过程
Markov奖励过程
Markov决策过程
MDPs扩展

MDP简介

MDP是用于正式描述强化学习模型中的环境(environment)。

这里的环境是完全可观测的。

几乎所有的RL问题都可以被定义为MDP模型。

马尔可夫性

如前面文章所说，马尔可夫性就是：给定现在，将来与过去无关。

数学语言描述就是：

P [S t + 1 | S t] = P [S t + 1 | S 1, S 2, . . ., S t]

$P[S_{t+1} | S_t] = P[S_{t+1} | S_1,S_2,...,S_t]$

状态转换矩阵

状态转换矩阵元素是状态转换概率。

此概率的数学表达式是：

P s s' = P [S t + 1 = s' | S t = s]

$P_{ss'} = P[S_{t+1} = s' | S_t = s]$

其中， $s'$ 是状态 $s$ 的下一个状态。

也即从s到s’的概率。

状态转换矩阵的数学表达式就是：

P = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ P 11 P 21 . . . . P n 1 P 12 P 22 P n 2 . . . . . . . . . P 1 n P 2 n P n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$P = \left[ \begin{matrix} P_{11} & P_{12} & ... &P_{1n} \\ P_{21} & P_{22} & ... &P_{2n} \\ ....\\ P_{n1} & P_{n2} & ... &P_{nn} \end{matrix} \right]$

从一个状态转向其他状态的概率之和为1，在矩阵上的体现就是：行和为1.

马尔可夫过程（马尔可夫链，MC）

马尔可夫过程的文字定义就是：无记忆随机过程。

比如一个随机的状态序列，每一个状态都具有马尔可夫性，则这样的序列就可称之为马尔可夫过程。

形式化定义为：

马尔可夫过程，是一个二元组 (S,P)。
其中：

S是一个有限状态集合
P是一个状态转换矩阵，且 $P_{ss'} = P[S_{t+1} = s' | S_t = s]$

马尔可夫奖励过程（MRP）

一个标准的马尔可夫奖励过程就是上面的马尔可夫链+奖励值。

说到奖励值，需要关注到的是奖励是针对转换动作而言的。

形式化定义是：
MRP是一个四元组: $(S,P,R,\gamma)$ .
其中：

S是有限状态集合
P是状态转换矩阵
R是奖励函数，且 $R_s = E[R_{t+1} | S_t = s]$
$\gamma$ 是折扣值，且 $\gamma \in [0,1]$

关于奖励函数的定义，可以这样理解：当前为t时刻，那么t时刻做的决策到t+1时刻时的状态，这个转换的价值是 $R_{t+1}$ ，由此也可以看出这是奖励的延迟效果。

Return

这个不知道翻译。一般用 $G_t$ 表示从t时刻开始到未来的计算折扣的总的奖赏值。

考虑到问题都建立在马尔可夫性质上，思考问题的时间起点都是当前这个时刻到未来。可能是有限步，也可能是无穷步。

形式化定义是：

G t = R t + 1 + γ R t + 2 + . . . = \sum k = 0 \infty γ k R t + k + 1

$G_t = R_{t+1} + \gamma R_{t+2} + ... \\ = \sum_{k = 0} ^{\infty} \gamma ^ k R_{t+k+1}$

思考一个问题：为什么要对总的奖赏打一个折扣呢？

关于这个，个人觉得类比资金的时间价值会很容易理解。

现在的100块钱和一年后的100块钱，在价值上是不一样的。基础的，可以拿钱生出利息，这就是钱的时间价值。

具体到RL问题中来，主要有以下几个优势：

数学上，上面的公式方便累加
避免在循环Markov过程中的奖励总值无限大
未来的不确定性可能并未完全被表示，所以当前的估计要打折扣
具体到金融领域的RL问题，考虑资金的时间价值
人性中对即时回报的偏爱
不排除某些场景下， $\gamma = 1$

价值函数（Value Function）

形式化表示如下：

v (s) = E [G t | S t = s]

$v(s) = E[G_t | S_t = s]$

即：从状态s开始往未来看，价值函数是奖赏总值的期望。

也就是说从状态s往未来走，有不同的路径，且不同的路径有不一样的长期价值。

进一步推导可得：

v π (s) = E π [G t | S t = s] = E π [R t + 1 + γ G t + 1 | S t = s] = \sum a π (a | s) \sum s', a p (s', r | s, a) [r + γ v π (s')], \forall s \in S

$v_{\pi}(s) = E_{\pi}[G_t | S_t = s] \\ = E_{\pi}[R_{t+1} + \gamma G_{t+1} | S_t = s] \\ = \sum_a \pi(a|s)\sum_{s',a}p(s',r | s,a)[r + \gamma v_{\pi}(s')], \forall s \in S$

这样，就可以用递推的方法计算状态的价值函数了。

Get 更多机器学习相关，可关注：