强化学习&蒙特卡洛4 | Every-visit 和 First-visit MC

对与一个较长的episode,如果出现了在同种状态下采取相同动作得到不同回报,有两种处理方式。
第一种名称为Every-visit MC是计算这几个的平均值,第二种是First-visit MC只保留第一次的结果

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/114437190
今日推荐