强化学习之阶段性任务和连续性任务3

在这里插入图片描述
阶段性任务是设置一个停止点在阶段停止的时候,agent回顾这一阶段所获得的回报,看他自己做得如何。然后在下一回合,在同样的环境下,利用上一个阶段的知识,采取更好的行动获得最大的reward。例如 一盘棋下完就是一个阶段,agent 从第一盘棋中获取经验,来下第二盘棋获得更好地经验。

在这里插入图片描述
连续任务是没有停止点的,智能体必须边学采取最佳动作,边和环境交互。例如买卖股票,市场是一值存在的,所以不存在一个截至点,agent需要一直学下去。在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/89292468
今日推荐