Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL(R)与CQL(H)

本文内容为《Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)》的续写，限于篇幅，笔者无法将他们写在一起，必须分开来写，请各位读者见谅，本文将介绍CQL2的算法及其变种算法，并给出理论证明。
最后在2.4部分笔者给出了 $CQ L (R)$ 与 $CQ L (H)$ 两种CQL在实际应用中的算法形式。那一部分理论部分很少，但是原理是基于CQL1和CQL2搭建。
本文的读者若想了解CQL2原理详情，请一定先阅读CQL1的前置内容，否则很难看懂本文的原理东西！

而若本文的读者如想直接应用，请直接看2.4部分 $CQ L (R)$ 与 $CQ L (H)$ 应用即可，无需看CQL2的理论部分。

2.2、CQL-version2

CQL定理2:对于特定给好的分布 $\mu(a|s)=\pi(a|s)$ ，因子 $\alpha>0$ 。满足： $supp(\mu)\subset supp(\pi_\beta)$ (即 $\pi_\beta=0$ $\rightarrow$ $\mu=0$ )时,满足在高概率条件成立中的引理1条件。在因子 $\alpha$ 足够大条件下，下列CQL2估计出的Q值满足： $\hat{V}^\pi(s,a) \leq V^\pi(s,a) \forall(s,a)$ 。额外的，若 $\hat{B}^\pi=B^\pi$ 即无采样误差存在，此时无需满足引理1的任何条件。对于任意 $\alpha>0$ ，均有 $\hat{V}^\pi(s,a) \leq V^\pi(s,a) \forall(s,a)$
CQL2更新方式为：
$Q^{k+1}(s,a)\leftarrow argmin_Q[\frac{1}{2}E_{s,a}[(\hat{B}^{ {\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha (E_{s～D,a～\mu(a|s)}[Q(s,a)]-E_{s～D,a～\pi_\beta(a|s)}[Q(s,a)])]$
证明：
使用和CQL1同样的证明方法，即令 $L(Q)=[\frac{1}{2}E_{s,a}[(\hat{B}^{ {\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha (E_{s～D,a～\mu(a|s)}[Q(s,a)]-E_{s～D,a～\pi_\beta(a|s)}[Q(s,a)])]$ ,并令 $\nabla_QL(Q)=0$ 求解 $Q$ 即可。
$\nabla_QL(Q)=-\sum_{s'}\hat{T}(s'|s,a)P(s,a)[\hat{r}(s,a)+\gamma \sum_{a'}{\pi}(a'|s')Q^k(s',a')-Q(s,a)]+\alpha d^{\pi_\beta}(s)(\mu(a|s)-\pi_\beta(a_s))$ 令上式=0会得到
$\frac{\alpha d^{\pi_\beta}(s)(\mu(a|s)-\pi_{\beta}(a|s))}{P(s,a)}=\hat{r}(s,a)+\gamma E_{s'～\hat{T}，a'～{\pi}}[Q^k(s',a')]-Q(s,a)$ 和CQL1相同办法整理得到：
$(CQL2)Q^{k+1}(s,a)=\hat{B}^{ {\pi}}Q^k(s,a)-\alpha[\frac{\mu(a|s)}{\pi_\beta(a|s)}-1]$ 同理完全和CQL1相同的办法得到:

$\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)+(I-P^\pi)^{-1}[\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\alpha[\frac{ \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}-1]]$

但是此时并没有办法去保证Q值的点态下界性，因为注意到 $[\frac{ \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}-1]$ 这一项取决于 $\mu$ 的选取而不一定向CQL1一样是恒正的，虽然不能使得Q保证每一点都是点态下界估计，但是它却可以保证V值是下界估计。
对CQL2两边分别先令 $k\rightarrow \infty$ 再对 $a_t$ 取期望即可得到 $V$ 值，会有：
$\hat{V}^{\pi}(s)=\hat{B}^{\pi}\hat{V}^{\pi}(s)-E_{a～\pi}[\alpha[\frac{\mu(a|s)}{\pi_\beta(a|s)}-1]]$
下面说明虽然保证不了 $[\frac{ \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}-1]$ 恒正，但是却能保证选取某个特定的 $\mu=\pi$ 下， $E_{a～\pi}[[\frac{\mu(a|s)}{\pi_\beta(a|s)}-1]]$ 恒正。

事实上：
$E_{a～\pi}[[\frac{\pi(a|s)}{\pi_\beta(a|s)}-1]]=\sum_a\pi(a|s)[\frac{\pi(a|s)-\pi_\beta(a|s)}{\pi_\beta(a|s)}]$
$\sum_a\pi(a|s)[\frac{\pi(a|s)-\pi_\beta(a|s)}{\pi_\beta(a|s)}]=\sum_a[\pi(a|s)-\pi_\beta(a|s)+\pi_\beta(a|s)][\frac{\pi(a|s)-\pi_\beta(a|s)}{\pi_\beta(a|s)}]$
$E_{a～\pi}[[\frac{\pi(a|s)}{\pi_\beta(a|s)}-1]]=\sum_a[\frac{(\pi(a|s)-\pi_\beta(a|s))^2}{\pi_\beta(a|s)}]+0\ge0$ 故和上述分析方式一样，我们会有：

$\hat{V}^{\pi}(s_t)\leq V^\pi(s_t)+(I-P^\pi)^{-1}[E_{a～\pi}[\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}]-\alpha E_{a～\pi}[\frac{ \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}-1]]$

$\hat{V}^{\pi}(s_t)\leq V^\pi(s_t)+(I-P^\pi)^{-1}\alpha E_{a～\pi}[-\frac{ \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]$
1.当存在采样误差时，并且 $\alpha$ 足够大时候可以保证第二项为负的，这时有
$\hat{V}^{\pi}(s_t)\leq V^\pi(s_t)$ 恒成立。
有趣的是，这个足够大的 $\alpha$ 和之前计算Q一样，是可以计算的。事实上读者们会发现当：
$E_{a_t～\pi}[\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}]-\alpha E_{a_t～\pi}[\frac{ \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]<0$ 即
$\alpha \geq max_{s_t,a_t}\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}max_{s_t}\sum_{a_t}\pi(a_t|s_t)\frac{\pi_\beta(a_t|s_t)}{\mu(a_t|s_t)}$ 2.当不存在采样误差时，注意到第二项已经恒负了，而无需调节 $\alpha$ ,这时有
$\hat{V}^{\pi}(s_t)\leq V^\pi(s_t)$ 恒成立。
证毕
笔者本部分证对应于下图所示原文的Theorem 3.2，笔者在原文基础上进行了修正和更改，符号用的不一样，原文中符号存在错误的情况。
在这里插入图片描述

2.3、CQL应用算法(算法应用的原理内容)

2.1和2.2笔者分别介绍了CQL1(Q值下界估计)和CQL2(V值下界估计)这两个改进方法，在这里先进行一下总结，带领读者进行一下回顾。
首先是Q值下界估计算法:
$Q^{k+1}(s,a)\leftarrow argmin_Q[\frac{1}{2}E_{s,a}[(\hat{B}^{ {\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha E_{s～D,a～\mu(a|s)}[Q(s,a)]]$
其次是V值下界估计算法
$Q^{k+1}(s,a)\leftarrow argmin_Q[\frac{1}{2}E_{s,a}[(\hat{B}^{ {\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha (E_{s～D,a～\mu(a|s)}[Q(s,a)]-E_{s～D,a～\pi_\beta(a|s)}[Q(s,a)])]$
笔者已经分别证明了二者的逐点下界性，说明这种Q估计结果为估计一个Q值/V值的下界，从而避免了过估计的问题，但是在实际应用中，存在另一个问题，如何去选择合适的 $\mu(a|s)$ 才能进行应用？并且注意到这两个公式中的 ${\pi}$ 是不可知的。而且还注意到在V值下界估计的时候，我们将 $\mu$ 取成了 $\pi$ ，而这显然不可取的，因为我们根本不知道最终策略收敛后的 $\pi$ ,为了解决这个问题，Kumar想到可否将 $\mu(a|s)$ 用于近似 $\hat{\pi}^k(a|s)$ ，但是这样就需要保证仍旧可以估计V的下界，Kumar证明了这一点。

CQL定理3：若策略梯度更新的非常缓慢(足够小的速度更新)，不考虑采样误差，即 $\hat{B}^\pi=B^\pi$ ，那么选取 $\mu=\hat{\pi}^k$ ,可以保证在迭代更新中的每一步时，都有 $\hat{V}^{k+1}(s)\leq V^{k+1}(s)$

证明：先重申 $\hat{V}^k(s)=E_{a～\pi}Q^k(s,a)$

由于
$\hat{Q}^{k+1}(s,a)=B^{ {\pi}}\hat{Q}^k(s,a)-\alpha[\frac{\hat{\pi}^k(a|s)}{\pi_\beta(a|s)}-1]$ 两边分别对 $a～{\hat{\pi}^{k+1}}$ 进行积分会得到：
$E_{a～{\hat{\pi}^{k+1}}}[Q^{k+1}(s,a)]=E_{a～{\hat{\pi}^{k+1}}}[B^{ {\pi}}Q^k(s,a)]-E_{a～{\hat{\pi}^{k+1}}}[\alpha[\frac{\hat{\pi}^k(a|s)}{\pi_\beta(a|s)}-1]]$ 而注意这一项即可：
$E_{a～{\hat{\pi}^{k+1}}}[\frac{\hat{\pi}^k(a|s)}{\pi_\beta(a|s)}-1]= E_{a～{\hat{\pi}^{k}}}[\frac{\hat{\pi}^k(a|s)}{\pi_\beta(a|s)}-1]+\sum_a(\hat{\pi}^{k+1}(a|s)-{\hat{\pi}^{k}}(a|s))[\frac{\hat{\pi}^k(a|s)}{\pi_\beta(a|s)}-1]$
这里的第一项恒正，在2.2中已经证明过，第二项为：
$\sum_a(\hat{\pi}^{k+1}(a|s)-{\hat{\pi}^{k}}(a|s))[\frac{\hat{\pi}^k(a|s)}{\pi_\beta(a|s)}-1]$ 这即当策略梯度更新的非常缓慢( $\hat{\pi}^{k+1}$ 与 $\hat{\pi}^{k}$ 变化差异没有那么大时候),可以保证:
$E_{a～{\hat{\pi}^{k+1}}}[\hat{Q}^{k+1}(s,a)]\leq E_{a～{\hat{\pi}^{k+1}}}[B^{ {\pi}}\hat{Q}^k(s,a)]$ 即这保证了每一步估计的 $V$ 都是变小的即 $\hat{V}^{k+1}(s)\leq V^{k+1}(s)$
而且不难可以推出下式:
$\hat{V}^\pi(s)\leq V^\pi(s)$

2.4 、CQL应用算法

根据上述结论，Kumar给出了一种优化的办法来获得 $\mu$ 而无需人为寻求，这需要有一个先验分布 $\rho$ 来正则化，而为了方便简化式子，Kumar等人将 $\rho$ 取成了均匀分布(不知道为什么可以这样取，以及为什么增添的KL散度)，下面是实际应用时候CQL式：

CQL应用式,作者称下式为 $CQ L (R)$
$min_Q(max_\mu[\frac{1}{2}E_{s,a}[(\hat{B}^{\hat{\pi}^k}Q^k(s,a)-Q(s,a))^2]+\alpha (E_{s～D,a～\mu(a|s)}[Q(s,a)]-E_{s～D,a～\pi_\beta(a|s)}[Q(s,a)])-KL(\mu||\rho)])$

注意到上述项目中要先对 $\mu$ 取最大，后对 $Q$ 取最小，具有先后顺序，注意到内部关于 $\mu$ 只有两项，那么首先即计算：
$max_\mu[E_{s～D,a～\mu(a|s)}[Q(s,a)]-KL(\mu|| \rho)]$ 但是注意到是有等式限制条件即 $\sum_a\mu(a|s)=1$
这可以用我们熟知的Lagrange乘子法求解。设 $\hat{L_1}$ 为乘子
令 $L(\mu)=E_{s～D,a～\mu(a|s)}[Q(s,a)]-KL(\mu|| \rho)+\hat{L_1}(\sum_a\mu(a|s)-1)$
$L(\mu)=\sum_s d_\beta(s)\mu(a|s)Q(s,a)-\sum_a \mu(a|s)log[\frac{\mu(a|s)}{\rho(a|s)}]+\hat{L_1}(\sum_a\mu(a|s)-1)$
$\nabla_\mu L(\mu)=Q(s,a)-log[\frac{\mu(a|s)}{\rho(a|s)}]+\hat{L_1}-1=0$
$\nabla_{\hat{L}_1} L(\mu)=(\sum_a\mu(a|s)-1)=0$ 从第一个梯度可知下式，并代入到第二个梯度中：
$\rho(a|s) e^{Q(s,a)+\hat{L_1}-1}=\mu(s|a)$
$log(e^{\hat{L_1-1}}\sum_a\rho(a|s) e^{Q(s,a)})=log(1)=0\rightarrow \hat{L_1}=1-log\sum_a\rho(a|s) e^{Q(s,a)}$ 代入 $\hat{L_1}$ 可得求解的分布为：
$\mu(a|s)=\frac{\rho(a|s) e^{Q(s,a)}}{\sum_a\rho(a|s) e^{Q(s,a)}}$ Kumar等人注意到，在当先验分布 $\rho(a|s)=\frac{1}{|a|}$ 为均匀分布, 其中, $∣ a ∣$ 代表抽样动作的总个数，这时会发现
$\mu(a|s)=\frac{e^{Q(s,a)}}{\sum_a e^{Q(s,a)}}$ 此时，待最大化的原式变化为：
$E_{s～D,a～\mu(a|s)}[Q(s,a)]-KL(\mu|| \rho)=\sum_sd_\beta(s)\sum_{a～\mu}[Q(s,a)-log\frac{\mu(a|s)}{\rho(a|s)}]$ 注意到这一项
$\sum_{a～\mu}[Q(s,a)-log\frac{\mu(a|s)}{\rho(a|s)}]=\sum_{a～\mu}[Q(s,a)-log\mu(a|s)+log{\rho(a|s)}]$ 代入 $\mu(a|s)=\frac{\rho(a|s) e^{Q(s,a)}}{\sum_a\rho(a|s) e^{Q(s,a)}}$ 上式可被化简为
$\sum_{a～\mu}[Q(s,a)-log\rho(a|s)-Q(s,a)+log\rho(a|s)+log\sum_a\rho(a|s) e^{Q(s,a)}]$ 进一步简化发现，当 $\mu$ 满足正态分布假设时，这即
$\sum_{a～\mu}[log\sum_{a'}\frac{1}{|a'|} e^{Q(s,a')}]=log\sum_{a'}\frac{1}{|a'|} e^{Q(s,a')}=log\sum_{a'}e^{Q(s,a')}-log|a'|$ 此时，我们注意到CQL应用式变为了
$min_Q([\frac{1}{2}E_{s,a}[(\hat{B}^{\hat{\pi}^k}Q^k(s,a)-Q(s,a))^2]+\alpha E_{s～D}(log\sum_{a'}\frac{1}{|a'|} e^{Q(s,a')}-E_{a～\pi_\beta(a|s)}[Q(s,a)])$ 注意到， $∣ a^{'} ∣$ 与带优化项目无关。因此最终应用在实际的CQL变为

应用到实际中的CQL,作者称下式为 $CQ L (H)$ :
$min_Q([\frac{1}{2}E_{s,a}[(\hat{B}^{\hat{\pi}^k}Q^k(s,a)-Q(s,a))^2]+\alpha E_{s～D}(log\sum_{a'} e^{Q(s,a')}-E_{a～\pi_\beta(a|s)}[Q(s,a)])$

笔者先描述原文作者给的CQL修正部分，笔者认为是有问题的，欢迎各位能够为笔者解答！

#随机选取一些random动作
random_actions_tensor = torch.FloatTensor(q2_pred.shape[0] * self.num_random, actions.shape[-1]).uniform_(-1, 1)#.cuda()
#从Policy-Network根据当前状态s选取一些动作a
curr_actions_tensor, curr_log_pis = self._get_policy_actions(obs, num_actions=self.num_random, network=self.policy)
#从Policy-Network根据下一个状态s+1选取一些动作a+1
new_curr_actions_tensor, new_log_pis = self._get_policy_actions(next_obs, num_actions=self.num_random, network=self.policy)
#计算Q(s,random),Q(s,predict_a),Q(s,predict_a+1)[笔者这里对代码存在疑问1]
q1_rand = self._get_tensor_values(obs, random_actions_tensor, network=self.qf1)
q1_curr_actions = self._get_tensor_values(obs, curr_actions_tensor, network=self.qf1)
q1_next_actions = self._get_tensor_values(obs, new_curr_actions_tensor, network=self.qf1)
#合并这四个Q变为[Q(s,random),Q(s,a),Q(s,predict_a),Q(s,predict_a+1)]
cat_q1 = torch.cat([q1_rand, q1_pred.unsqueeze(1), q1_next_actions,q1_curr_actions], dim=1)

下面开始计算的是 $\alpha E_{s～D}(log\sum_{a'} e^{Q(s,a')}-E_{a～\pi_\beta(a|s)}[Q(s,a)])$

##计算CQL(H)中的logsumexp
min_qf1_loss=torch.logsumexp(cat_q1 / self.temp, dim=1,).mean() * self.min_q_weight * self.temp
##计算CQL(H)中的logsumexp-E_a～\pi_beta[Q(s,a)]
min_qf1_loss = min_qf1_loss - q1_pred.mean() * self.min_q_weight

最后求和 $\alpha E_{s～D}(log\sum_{a'} e^{Q(s,a')}-E_{a～\pi_\beta(a|s)}[Q(s,a)])+[\frac{1}{2}E_{s,a}[(\hat{B}^{\hat{\pi}^k}Q^k(s,a)-Q(s,a))^2]$ 并执行梯度更新。

 qf1_loss = qf1_loss + min_qf1_loss

笔者对此代码有如下疑问：

1.作者在源代码中使用了如下loss来代替,而没有乘0.5,这样会不会影响最小值，笔者认为有可能的。

$[\frac{1}{2}E_{s,a}[(\hat{B}^{\hat{\pi}^k}Q^k(s,a)-Q(s,a))^2]\rightarrow E_{s,a}[(\hat{B}^{\hat{\pi}^k}Q^k(s,a)-Q(s,a))^2]$
2.作者在源代码中使用了这样一个值：在q1_next_actions = self._get_tensor_values(obs, new_curr_actions_tensor, network=self.qf1)这一部分，它实际上代表着如下公式，但是笔者认为，这是没有实际意义的，可能作者想表达采样的意思，但是这样很容易让人费解：

$Q(s_{t},a_{t+1})$ 笔者若收到Kumar的回复会第一时间更新内容，并解决疑惑，也非常欢迎广大同行和学者可以为笔者解决这个疑惑。笔者后续会更新CQL的实现代码，欢迎各位持续关注