此文章主要是结合哔站shuhuai008大佬的白板推导视频：动态学习_108min

一、策略迭代

（一）策略评估

已知MPP， $P (s^{'}, r ∣ s, a)$
给定 $\pi$ ，求 $V_\pi\;\;\;\;(\forall s\in S)$
记 $V_\pi=\begin{pmatrix} V_\pi(s_1) \\V_\pi(s_2) \\\vdots\\V_\pi(s_{|S|}) \end{pmatrix}_{|S|*1}\;\;\;\;\;\;r_\pi=\begin{pmatrix} r_\pi(s_1) \\r_\pi(s_2) \\\vdots\\r_\pi(s_{|S|}) \end{pmatrix}_{|S|*1}\\P_\pi\triangleq[p_\pi(s,s')]_{|S|*|S|}$
所以， $V_\pi(s)=E_\pi[G_t|S_t=s]\\=E_\pi[R_{t+1}+\gamma V_{\pi}(s_{t+1})|s_t=s]\\=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')]\\=\begin{matrix} \underbrace{ \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)r } \\ (1) \end{matrix}+\begin{matrix} \underbrace{\gamma \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)V_\pi(s')} \\ (2) \end{matrix}$
$(1)=\sum_a\pi(a|s)\cdot\underset{ r(s,a)\triangleq E_\pi[R_{t+1}|s_t=s,A_t=a]}{\underbrace{\sum_{r}rp(r|s,a)}}\\=\sum_a\pi(a|s)\cdot r(s,a)\\\triangleq r_\pi(s)$
$(2)=\gamma \sum_a\pi(a|s)\sum_{s'}p(s'|s,a)V_\pi(s')\\=\gamma \sum_{s'}\underset{P_\pi(s,s')}{\underbrace{\sum_a\pi(a|s)p(s'|s,a)}}V_\pi(s')\\=\gamma \sum_{s'}P_\pi(s,s')V_\pi(s')$
于是， $V_\pi(s)= r_\pi(s)+\gamma \sum_{s'}P_\pi(s,s')V_\pi(s')$

1.解析解

用矩阵的表达形式来解。

令 $s_i\triangleq s,s_j\triangleq s'$ ，得到： $V_\pi(s_i)= r_\pi(s_i)+\gamma \sum_{j=1}^{|S|}P_\pi(s_i,s_j)V_\pi(s_j)\\V_\pi=r_\pi+\gamma P_\pi V_\pi\\(I-\gamma P_\pi)V_\pi=r_\pi\\V_\pi=(I-\gamma P_\pi)^{-1}r_\pi$
复杂度为： $O(|S|^3)$

2.迭代解（数值解）

构造一个数列，让这个数列收敛于 $V_\pi$ ，收敛性证明暂时不管。
$\lim_{k\rightarrow\infty}\{V_k\}=V_\pi$
我们根据贝尔曼方程就可以得到， $V_{k+1}(s)\triangleq \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma V_k(s')]$

（二）策略改进

策略改进对应的是贝尔曼最优方程。

1.策略改进定理

给定 $\pi,\pi'$ ，如果 $\forall s\in S,q_\pi(s,\pi'(s))\ge V_\pi(s)$ ，那么则有 $\forall s\in S,V_{\pi'}(s)\ge V_\pi(s)$

证明：

$\forall s\in S\\(q_\pi(s,a)=\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')]=E[R_{t+1}+\gamma V_\pi(s_{t+1})|s_t=s,A_t=a])$
$V_\pi(s)\le q_\pi(s,\pi'(s))\\=E[R_{t+1}+\gamma V_\pi(s_{t+1})|s_t=s,A_t=\pi'(s)]\\=E_{\pi'}[R_{t+1}+\gamma V_\pi(s_{t+1})|s_t=s]\\\le E_{\pi'}[R_{t+1}+\gamma q_\pi(s_{(t+1)},\pi'(s_{t+1}))|s_t=s]\\=E_{\pi'}\Big[R_{t+1}+\gamma E_{\pi'}[R_{t+2}+\gamma V_\pi(s_{t+2})|s_{t+1}]\Big|s_t=s\Big]\\=E_{\pi'}\Big[R_{t+1}+\gamma E_{\pi'}[R_{t+2}|s_{t+1}]+\gamma^2 E_{\pi'}[V_\pi(s_{t+2})|s_{t+1}]\Big|s_t=s\Big]\\=E_{\pi'}\Big[R_{t+1}+\gamma R_{t+2}+\gamma^2 V_\pi(s_{t+2})\Big|s_t=s\Big]\\\cdots\\\le E_{\pi'}\Big[\underset{G_t}{\underbrace{R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots+\cdots}}\Big|s_t=s\Big]\\=V_{\pi'}(s)$

2.贪心策略

在这里插入图片描述

Greedy Policy: $\forall s\in S$ , $\pi'(s)=\argmax_aq_\pi(s,a)$

$\forall s\in S,V_\pi(s)\le \max_a q_\pi(s,a)=q_\pi(s,\pi'(s))$
由策略改进定理可知： $\forall s\in S,\;\;\;\;\;V_{\pi'}(s)\ge V_\pi(s)$

If $V_{\pi'}=V_\pi$ ,then $V_{\pi'}=V_\pi=V_*$ ，证明如下：

$V_{\pi'}=V_\pi\;\;\;\;\;\;\;\rightarrow\;\;\;\;\;q_{\pi'}=q_\pi\\\forall s\in S,\;\;\;V_{\pi'}(s)=\sum_a\pi'(a|s)q_{\pi'}(s,a)\\=\sum_a\pi'(a|s)q_{\pi}(s,a)\\=q_\pi(s,\pi'(s))\\=\max_aq_\pi(s,a)\\=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')]\\=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma V_{\pi'}(s')]$
于是，
$V_{\pi'}(s)=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma V_{\pi'}(s')]$
又因为： $V_*(s)=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma V_*(s')]$
所以， $V_{\pi'}=V_*$
即， $V_{\pi'}=V_\pi=V_*$

二、价值迭代

是极端情况下的策略迭代，策略评估只进行一步，然后策略改进。

价值迭代虽然只走一步，但是还是会更新 $S$ 中的所有状态。比价值迭代更简单的是就地策略迭代（异步策略迭代的特例），只选取 $S$ 中的一个状态进行一步更新。

$\;$
$\;$
$\;$
$\;$
$\;$

完结！！！再贴一下汇总贴：机器学习-白板推导系列笔记

机器学习-白板推导系列笔记（三十五）-DP