李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO） - 代码天地

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

企业开发 2023-07-01 07:47:39 阅读次数: 0

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

on-policy：要learn的agent和环境互动的agent是同一个，即agent一边跟环境互动，一边学习；

off-policy：要learn的agent和环境互动的agent是同一个，即在旁边看别人玩。

on-policy→off-policy的目的是为提高数据利用效率。

on-policy→off-policy的公式推导：实现从p分布的policy中sample data→q分布的policy中sample data。

实际操作中，p分布和q分布还是不能差太多，否则会导致一些问题出现。这是因为期望相等，方差Variance不一定相等，公式推导如下。

如果sample的次数不够多，就会出现问题，如下图。

由于跟环境做互动的是θ＇，而不是θ，因此，θ＇ sample出来的数据和θ没有关系。进而，可以实现θ＇跟环境做互动产生一大堆数据以后，θ可以update很多次。Train到一定程度以后，θ＇重新跟环境做互动。

$A^{^{\theta }}(s_{_{t}},a_{_{t}})$ 是Accumulated Reward 减去 bias，用来估测动作的相对好坏，如果正就增加动作几率，如果负，就减少几率。

这里有个假设， $p_{\theta }(s_{_{t}})$ 和 $p_{{\theta }'}(s_{t})$ 分布是差不多的，可以抵消，另外的原因是因为算不出来的。

前面的假设是 $p_{\theta }(s_{t}|a_{t})$ 与 $p_{{\theta}' }(s_{t}|a_{t})$ 不能差太多，否则结果会不准确。那么，如何避免差太多，就是PPO要做的事情，就是在training的时候，多加了一个constraint。这个constraint就是θ和θ＇这两个model 输出的action的KL散度，KL Divergence。TRPO是PPO的前身，constraint的位置不同是两者的区别。

注意：PPO比TRPO在实操上容易多，效果差不多。KL Divergence并不是θ和θ＇参数的距离，是行为上的距离，即给同一个state的时候，action几率分布之间的差距。

PPO算法流程：

PPO 2 公式复杂，但是操作起来简单。

式中， clip函数的含义

式中，min函数的含义

猜你喜欢

转载自blog.csdn.net/qq_22749225/article/details/125491056

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

【李宏毅深度强化学习2018】P2 Proximal Policy Optimization (PPO)

【李宏毅深度强化学习笔记】2、深度强化学习算法 Proximal Policy Optimization算法(PPO)

机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)

【强化学习】Proximal Policy Optimization(PPO)

李宏毅深度强化学习(国语)课程(2018) 笔记（一）Policy Gradient （Review）

浅析强化学习Proximal Policy Optimization Algorithms(PPO)

强化学习PPO：Proximal Policy Optimization Algorithms解读

强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

Proximal Policy Optimization(PPO)算法原理及实现！

Hands on RL 之 Proximal Policy Optimization (PPO)

基于强化学习PPO(Proximal Policy Optimization)算法的无人机姿态控制系统

【论文阅读】强化学习—近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

【PPO姿态控制】基于强化学习(Proximal Policy Optimization)PPO训练的无人机姿态控制simulink仿真

Policy Gradient (PG)与Proximal Policy Optimization (PPO)算法详解

强化学习从基础到进阶–案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

Proximal Policy Optimization近端策略优化（PPO）

Proximal Policy Optimization(近端策略优化)(PPO)原理详解

Proximal Policy Optimization (PPO) 算法理解：从策略梯度开始

Proximal Policy Optimization(PPO)和文本生成

【深度强化学习】5. Proximal Policy Optimization

强化学习从基础到进阶-常见问题和面试必知必答[8]：近端策略优化（proximal policy optimization，PPO）算法

李宏毅深度强化学习(国语)课程(2018) 笔记（六）Actor-Critic

李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning

李宏毅深度强化学习(国语)课程(2018) 笔记（七）Sparce Reward

Proximal Policy Optimization Algorithms

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

李宏毅深度强化学习(国语)课程(2018) 笔记（三）Q-learning （Basic Idea）

李宏毅深度强化学习(国语)课程(2018) 笔记（五）Q-learning （Continuous Action）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)