Actor Critic学习笔记 - 代码天地

Actor Critic学习笔记

编程语言 2018-11-10 10:20:41 阅读次数: 0

版权声明：本文为博主原创文章，转载请附上链接出处。 https://blog.csdn.net/allen_li123/article/details/83926953

什么是Actor-Critic

Actor-Critic 的 Actor 是 Policy Gradients,因为他直接根据概率进行选择所以能够很容易选出当前最优解，而Q-learning存在 $\epsilon-greedy$ 选择，不能及时选择出当前最优解.但是 Policy Gradients 容易陷入局部最优解，而且PG是回合更新，降低了学习效率。 Actor Critic 中的 Critic 是 Q-learning 或者其他的以值为基础的学习法 , 能进行单步更新，两者结合就解决掉了彼此的缺点。

在这里插入图片描述

如何更新

现在我们有两套不同的体系, Actor 和 Critic, 他们都能用不同的神经网络来代替 . 现实中的奖惩会左右 Actor 的更新情况，但是Policy Gradients 是根据回合结束后的奖惩来更新. 那么如何让Actor进行单步更新呢?我们用一个 Critic 去学习这些奖惩机制, 学习完了以后. 由 Actor 来进行动作采取, 由 Critic 来告诉 Actor 这些动作哪些奖励高, 哪些奖励低, Critic 通过学习环境和奖励之间的关系, 能看到现在所处状态的潜在奖励, 所以用它来指点 Actor 便能使 Actor 每一步都在更新, 如果使用单纯的 Policy Gradients, Actor 只能等到回合结束才能开始更新.

Actor-Critic的改进

Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西. Google DeepMind 为了解决这个问题, 修改了 Actor Critic 的算法。

在这里插入图片描述

将 DQN 网络加入进 Actor Critic 系统中, 这种新算法叫做 Deep Deterministic Policy Gradient, 成功的解决的在连续动作预测上的学不到东西问题.

猜你喜欢

转载自blog.csdn.net/allen_li123/article/details/83926953

Actor Critic学习笔记

actor-critic 算法学习笔记

Actor Critic

强化学习--Actor-Critic

【强化学习】Actor-Critic

理解actor-critic

强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、

机器学习：李宏毅深度强化学习笔记（三）Actor-Critic

【李宏毅-强化学习笔记】p6、Actor-Critic

李宏毅深度强化学习(国语)课程(2018) 笔记（六）Actor-Critic

深度强化学习Actor-Critic的更新逻辑梳理笔记

系统学习深度学习（三十六）--Actor-Critic

强化学习DRL--策略学习（Actor-Critic）

强化学习中的 AC（Actor-Critic）、A2C（Advantage Actor-Critic）和A3C（Asynchronous Advantage Actor-Critic）算法

DRL---------------Actor-Critic/DDPG

Actor Critic算法源码分析

Actor Critic算法简要理解

【小白笔记】Real-time ‘Actor-Critic’ Tracking

【强化学习】Actor-Critic算法详解

Keras深度强化学习--Actor-Critic实现

深度强化学习——actor-critic算法(4)

（4）深度强化学习基础：Actor-Critic

强化学习：Actor-Critic (AC)算法

【强化学习】18 —— SAC（ Soft Actor-Critic）

强化学习：Actor-Critic、SPG、DDPG、MADDPG

【强化学习】13 —— Actor-Critic 算法

Actor模型学习笔记

深度增强学习（DRL）漫谈 - 从AC（Actor-Critic）到A3C（Asynchronous Advantage Actor-Critic）

《深度解读Soft Actor-Critic 算法》

actor-critic 相关算法简述

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)