谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】

  • 论文题目:An Optimistic Perspective on Offline Reinforcement Learning

作者及标题信息截图

所解决的问题

  提出一种基于基于DQN replay datasetoffline强化学习算法。用Random Ensemble Mixture (REM)一种更加鲁棒的Q-Learning算法增强模型的泛化能力。

背景

  深度学习的成功取决于大量地数据集,而强化学习却需要不断与环境交互进行学习。离线强化学习就是考虑能不能从大量地数据中进行学习,这种方法不仅更加贴近现实生活,并且能够通过学习以往的经验,更好地进行归纳总结。

  在离线强化学习中,智能体不会接收到在线的环境所给予的反馈信息,需要从一个固定的数据集,泛化到在线交互过程。这种方法就能够使得算法能够学任何policy收集的数据。

  Offline RL的问题在于当前策略和收集Offline Data的策略不匹配问题,策略不匹配导致的问题就是采取非相同的动作,并不知道奖励应该给多少。

  这篇文章就是想要验证在offline data上训练智能体,能不能不修正策略之间的分布差异也能够学地很好。

所采用的方法?

  提出两个deep Q-learning算法Ensemble DQNREM,使得其自适应集成,改善稳定性。data的收集来自大量混合策略。

Ensemble-DQN

  Ensemble-DQNDQN的一个扩展,将Q-function集成 Q θ k ( s , a ) Q_{\theta}^{k}(s,a)

L ( θ ) = 1 K k = 1 K E s , a , r , s D [ λ ( Δ θ k ( s , a , r , s ) ) ] \mathcal{L}(\theta)=\frac{1}{K} \sum_{k=1}^{K} \mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)\right)\right]

Δ θ k ( s , a , r , s ) = Q θ k ( s , a ) r γ max a Q θ k ( s , a ) \Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)=Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right)

  其中 l λ l_{\lambda} Huber loss

λ ( u ) = { 1 2 u 2 ,  if  u λ λ ( u 1 2 λ ) ,  otherwise  \ell_{\lambda}(u)=\left\{\begin{array}{ll} \frac{1}{2} u^{2}, & \text { if }|u| \leq \lambda \\ \lambda\left(|u|-\frac{1}{2} \lambda\right), & \text { otherwise } \end{array}\right.

  • Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.

Random Ensemble Mixture (REM)

  REM是将多个Q值组合成一个Q值的估计,因此Q函数近似为( K 1 K-1 )个采样的混合概率,其Loss函数定义为:

L ( θ ) = E s , a , r , s D [ E α P Δ [ λ ( Δ θ α ( s , a , r , s ) ) ] ] Δ θ α = k α k Q θ k ( s , a ) r γ max a k α k Q θ k ( s , a ) \begin{aligned} \mathcal{L}(\theta) &=\mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\mathbb{E}_{\alpha \sim \mathrm{P}_{\Delta}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{\alpha}\left(s, a, r, s^{\prime}\right)\right)\right]\right] \\ \Delta_{\theta}^{\alpha} &=\sum_{k} \alpha_{k} Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} \sum_{k} \alpha_{k} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right) \end{aligned}

  其中 P Δ P_{\Delta} 表示 K 1 K-1 个采样所得到的的概率分布。动作的选择使用K个值函数估计的均值:

Q ( s , a ) = k Q θ k ( s , a ) / K Q(s, a)=\sum_{k} Q_{\theta}^{k}(s, a) / K

DQN、Distributional QR-DQN、以及本文提出的两种方法的对比

取得的效果?

与C51算法对比

所出版信息?作者信息?

  谷歌最新论文,第一作者Rishabh Agarwal主要研究智能体的鲁棒性,认为深度强化学习可以继承监督学习的方法来改进,本文就是这种思想。

谷歌官方博客截图

参考资料

  • Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning
    algorithms
    . arXiv preprint arXiv:1910.01708, 2019a.

  • Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.

  • Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.

  • Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
    Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020.

  • 代码链接:https://github.com/google-research/batch_rl

发布了199 篇原创文章 · 获赞 174 · 访问量 22万+

猜你喜欢

转载自blog.csdn.net/weixin_39059031/article/details/105620789