此文章主要是结合哔站shuhuai008大佬的白板推导视频：马尔科夫决策过程_107min

一、背景介绍

Random Variable： $X\;\;Y\;\;X\bot Y$
Stochastic Process： $\{S_t\}_{t=1}^\infty$
Markov Chain/Process，具有Markov Property的随机过程： $P(S_{t+1}|S_t,S_{t-1},\cdots,S_1)=P(S_{t+1}|S_t)$
State Space Model：（HMM，Kalman Filter，Particle Filter）Markov Chain+Observation
Markov Reward Process：Markov Chain+Reward
Markov Decision Process：Markov Chain+Reward+Action

$S:state\;set\rightarrow S_t\\A:action\;set,\forall s\in S,A(s)\rightarrow A_t\\R:reward\;set\rightarrow R_t,R_{t+1}$

在这里插入图片描述

二、动态特性

Markov Chain： $S$
MRP： $S, R$
MDP： $S, A (s), R, P （动态特性）$
在这里插入图片描述
$P:p(s',r|s,a)\triangleq Pr\{S_{t+1}=s',R_{t+1}=r|S_t=s,A_t=a\}$
状态转移函数：

$P(s'|s,a)\sum_{r\in R}P(s',r|s,a)$

三、价值函数

在这里插入图片描述
Policy： $\pi$ 表示

确定性策略： $a\triangleq \pi(s)$

随机性策略： $\pi(a|s)\triangleq Pr\{A_t=a|S_t=s\}$

回报：
$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots+\gamma^{r-1}R_T=\sum_{i=0}^{\infty}\gamma^iR_{t+i+1}\;\;(T\rightarrow\infty) \\\gamma\in [0,1]$

价值函数： $V_\pi(s)\triangleq E_{\pi}[G_t|S_s=s]\\q_\pi(s,a)\triangleq E_{\pi}[G_t|S_s=s,A_t=a]$

四、贝尔曼期望方程

回溯图：
在这里插入图片描述

Value Function： $V_\pi(s)\triangleq E_{\pi}[G_t|S_s=s]（加权平均值）\\q_\pi(s,a)\triangleq E_{\pi}[G_t|S_s=s,A_t=a]$
$V_\pi(s)=\sum_{a\in A(s)}\pi(a|s)\cdot q_\pi(s,a)$

$V_\pi(s)=\pi(a_1|s)\cdot q_\pi(s.a_1)$

$q_\pi(s,a)=\sum_{s',r}p(s',r|s,a)\cdot[r+\gamma V_\pi(s')]$

贝尔曼期望方程：
$V_\pi(s)=\sum_{a\in A}\pi(a|s)\cdot\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')]$

$V_\pi(s)=E_\pi\Big[R_{t+1}+\gamma V_\pi(S_{t+1})|S_t=s\Big]$
$q_\pi(s,a)=\sum_{s',r}p(s',r|s,a)\cdot[r+\gamma \sum_{a'\in A}\pi(a'|s')\cdot q_\pi(s',a')]$

五、贝尔曼最优方程

$V_*(s)\triangleq \max_\pi V_\pi(s)\\q_*(s,a)\triangleq \max_\pi q_\pi(s,a)$

记 $\pi_*=\argmax_\pi V_\pi(s)=\argmax_\pi q_\pi(s,a)$ ，

$V_*(s)= \max_\pi V_\pi(s)=V_{\pi_*}(s)\\q_*(s,a)= \max_\pi q_\pi(s,a)=q_{\pi_*}(s,a)$

$V_{\pi_*}(s)\le\max_aq_{\pi_*}(s,a)$

假如 $V_{\pi_*}(s)<\max_aq_{\pi_*}(s,a)$ 则可以构造一个 $\pi_{new}$ ， $\pi_{new}(s)=\argmax_a q_{\pi_*}(s,a)\\\pi_{new}(\overline{s})=\pi_{*}(\overline{s})或\pi_{new}(a|\overline{s})=\pi_{*}(a|\overline{s})$
则， $V_{\pi_{new}}(s)=\max_a q_{\pi_*}(s,a)>V_{\pi_*}(s)$
则说明 $\pi_{new}$ 好于 $\pi_*$ ，这与 $\pi_*$ 最优矛盾，因此假设不成立，所以有： $V_{\pi_*}(s)=\max_aq_{\pi_*}(s,a)$

$V_{\pi_*}(s)=\max_aq_{\pi_*}(s,a)$

$V_{*}(s)=\max_aq_{*}(s,a)$
$q_*(s,a)=\sum_{s',r}p(s',r|s,a)\cdot[r+\gamma V_*(s')]$
贝尔曼最优方程：
$V_*(s)=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma V_*(s')]$

$q_*(s,a)=\sum_{s',r}p(s',r|s,a)\cdot[r+\gamma \max_{a'} q_*(s',a')]$

$\;$
$\;$
$\;$

下一章传送门：白板推导系列笔记（三十五）-动态规划（强化学习）

机器学习-白板推导系列笔记（三十四）-MDP

一、背景介绍

二、动态特性

三、价值函数

四、贝尔曼期望方程

五、贝尔曼最优方程

猜你喜欢