[强化学习论文笔记(7)]:DPG - 代码天地

[强化学习论文笔记(7)]:DPG

其他 2020-01-03 20:17:32 阅读次数: 0

Deterministic Policy Gradient Algorithms

论文地址

笔记

出发点

首先最开始提出的policy gradient 算法是 stochastic的。

这里的随机是指随机策略\(\pi_\theta(a|s)=P[a|s,;\theta]\). 但是随机策略在高维连续动作空间上可能会有问题，毕竟要考虑当前状态下所有的动作带来的不同的影响，需要更多的(s,a)的数据来形成更准确的判断

但是对于确定性策略\(a=\mu_theta(s)\). 过去，认为这样是不可行的，原因待补充。（一个显而易见的原因就是不够explore）

本文就冒天下之大不韪，提出了deterministic policy gradient ,也就是DPG

文章用的off-polcy 用一个stochasitic behavior policy来选择动作，然后学习一个determinisitic target policy.

policy gradient

\[J(\pi_\theta)=\int_S \rho^\pi(s)\int_A \pi_\theta (s,a)q(s,a)dads=E_{s\sim \rho^\pi ,a\sim \pi_\theta}[q(s,a)]\]

\(\rho^\pi(s') = \int_S \sum_{t=1}^{\infty}p_1(s)p(s\to s',t,\pi)ds\)

stochastic policy gradient

policy gradient theorem:

\[\nabla_\theta J(\pi_\theta)=\int_S \rho^\pi(s)\int_A \nabla_\theta \pi_\theta (s,a)Q^\pi(s,a)dads=E_{s\sim \rho^\pi ,a\sim \pi_\theta}[\nabla_\theta log \pi_\theta(s,a)Q^\pi(s,a)]\]

stochastic Actor-Critic algorithm

critic 通过TD的方式估计　action-value function \(Q^w(s,a)=Q^\pi(s,a)\)

\[\nabla_\theta J(\pi_\theta)=\int_S \rho^\pi(s)\int_A \nabla_\theta \pi_\theta (s,a)Q^w(s,a)dads=E_{s\sim \rho^\pi ,a\sim \pi_\theta}[\nabla_\theta log \pi_\theta(s,a)Q^w(s,a)]\]

Off-policy AC

behavior policy \(\beta(a|s)\neq \pi_\theta(a|s)\)

\[J_\beta(\pi_\theta)=\int_S \rho^\beta(s)V^\pi(s)ds=\int_S \int_A \rho^\beta \pi_\theta (s,a)Q^\pi(s,a)dads\]

\[\nabla_\theta J_\beta(\pi_\theta)=\int_S \int_A \rho^\beta(s)\nabla_\theta \pi_\theta (s,a)Q^\pi(s,a)dads=E_{s\sim \rho^\beta ,a\sim \beta}[\frac{\pi_\theta(a|s)}{\beta_\theta(a|s)} \nabla_\theta log \pi_\theta(s,a)Q^\pi(s,a)]\]

猜你喜欢

转载自www.cnblogs.com/Lzqayx/p/12146530.html

[强化学习论文笔记(7)]:DPG

Deterministic Policy Gradient Algorithms (DPG强化学习) 论文翻译

[强化学习论文笔记(６)]:A3C

【论文笔记】基于视觉特征提取的强化学习自动驾驶系统

【论文笔记】基于生成对抗网络的强化学习算法的研究

【论文笔记】基于深度强化学习的机器人操作行为研究综述

【论文笔记】基于深度强化学习的密集物体温度优先推抓方法

Keras深度强化学习--DPG与DDPG实现

【论文笔记】一种基于启发式奖赏函数的分层强化学习方法

【论文笔记】基于分层深度强化学习的移动机器人导航方法

化学论文笔记（二）

强化学习笔记

强化学习学习笔记

强化学习的学习笔记

强化学习复习笔记

强化学习入门笔记

深度强化学习笔记

RLChina强化学习笔记

强化学习笔记（二）

强化学习笔记整理

强化学习笔记（四）

强化学习笔记（一）

强化学习笔记（六）

强化学习笔记（五）

强化学习笔记：DDPG

强化学习笔记（三）

【强化学习】AlphaGo Zero论文

强化学习之DQN论文介绍

【论文】强化学习必读经典论文 | 如何学习强化学习 | 强化学习入门

强化学习《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》论文阅读笔记

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)