揭秘深度强化学习-4长期策略之衰减因子

企业开发 2018-08-09 10:06:11 阅读次数: 0

看完觉得深受启发的一篇文章，根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

衰减未来奖励(Discounted Future Reward)

为了在周期很长的游戏中同样表现出色，我们需要考虑的不仅仅是当下即时奖励，同样还有未来我们能够得到的。那么我们该如何做呢？

假设应用马尔科夫决策过程，我们可以简单计算出一个周期的总奖励：

$R=r_{1}+r_{2}+...+r_{n}$

但是，因为我们的环境的随机性，我们不能确定下次用同样的行动是否能拿到相同的奖励。越遥远的将来，不确定性越大。因此，通常做法是使用衰减未来奖励代替确定的未来奖励：

$R_{t}= r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+1}+\gamma^{3} r_{t+2}+...++\gamma^{n-t} r_{n}$

γ 是一个介于0到1间的值，表示未来衰减因子——距离当下越远，我们对它的考虑越少。由上述公式很容易推导出以下公式：

$R_{t}= r_{t}+\gamma( r_{t+1}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+...++\gamma^{n-t-1} r_{n})=r_{t}+\gamma R_{t+1}$

如果我们将衰减因子设置为γ=0，表示我们的策略将使短视的即不考虑未来获得奖励仅依赖当下奖励。如果我们想要在当下奖励和未来奖励之间取得平衡，我们可以将γ设置为0.9之类的数。总而言之，γ的值越高，我们对未来奖励越看重。如果我们的环境是确定无随机变化的，并且相同的行动总会获得相同的奖励，我们可以将γ设置为1.

一个好的策略是不论什么环境，总能选到一个行动，来最大化我们获得的奖励。（无论多烂的牌，都要出的精彩）

猜你喜欢

转载自blog.csdn.net/qq_26690795/article/details/81509072

揭秘深度强化学习-4长期策略之衰减因子

揭秘深度强化学习-1简述

Tensorflow实现策略网络（深度强化学习）之cartPole

深度强化学习——策略学习(3)

深度强化学习笔记：策略梯度

揭秘深度强化学习-5 评估奖励之Q-learning算法

强化学习之策略迭代

强化学习之策略policy 6

强化学习之策略梯度

揭秘深度强化学习-2强化学习主要挑战

深度强化学习之简介

深度强化学习之DQN实战

深度强化学习系列之（５）前言———策略梯度（Policy Gradient）

深度强化学习之近端策略优化（Proximal Policy Optimization)

深度强化学习之策略梯度和优化(二) — DDPG

深度强化学习之策略梯度和优化(一) — PolicyGradient

（3）深度强化学习基础【策略学习】

深度强化学习

近端策略优化深度强化学习算法

深度强化学习-策略梯度算法推导

深度强化学习-策略梯度算法深入理解

深度强化学习-带基线的策略梯度算法原理

深度强化学习-策略梯度算法(Reinforce)代码

深度强化学习之DQN-深度学习与强化学习的成功结合

揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

彭伟《揭秘深度强化学习》PDF及代码+山下隆义《图解深度学习》PDF

强化学习-策略迭代

强化学习策略梯度

增强学习（强化学习）基础之策略梯度

UCBerkeley 深度强化学习-强化学习简介Lec4

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)