揭秘深度强化学习-4长期策略之衰减因子

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

衰减未来奖励(Discounted Future Reward)

为了在周期很长的游戏中同样表现出色,我们需要考虑的不仅仅是当下即时奖励,同样还有未来我们能够得到的。那么我们该如何做呢?

假设应用马尔科夫决策过程,我们可以简单计算出一个周期的总奖励:

R=r_{1}+r_{2}+...+r_{n}

但是,因为我们的环境的随机性,我们不能确定下次用同样的行动是否能拿到相同的奖励。越遥远的将来,不确定性越大。因此,通常做法是使用衰减未来奖励代替确定的未来奖励:

R_{t}= r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+1}+\gamma^{3} r_{t+2}+...++\gamma^{n-t} r_{n}

γ 是一个介于0到1间的值,表示未来衰减因子——距离当下越远,我们对它的考虑越少。由上述公式很容易推导出以下公式:

R_{t}= r_{t}+\gamma( r_{t+1}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+...++\gamma^{n-t-1} r_{n})=r_{t}+\gamma R_{t+1}

如果我们将衰减因子设置为γ=0,表示我们的策略将使短视的即不考虑未来获得奖励仅依赖当下奖励。如果我们想要在当下奖励和未来奖励之间取得平衡,我们可以将γ设置为0.9之类的数。总而言之,γ的值越高,我们对未来奖励越看重。如果我们的环境是确定无随机变化的,并且相同的行动总会获得相同的奖励,我们可以将γ设置为1.

一个好的策略是不论什么环境,总能选到一个行动,来最大化我们获得的奖励。(无论多烂的牌,都要出的精彩)

猜你喜欢

转载自blog.csdn.net/qq_26690795/article/details/81509072