强化学习&蒙特卡洛2 | 蒙特卡洛思想

智能体的目标是到达右下角获得奖励+10,我们采取随机动作策略来模拟游戏能获得多个Episodes,我们可以使用这些Episodes来改进策略
在这里插入图片描述
通过比较不同episode的action的reward,可以发现,在当前状态下采取某些动作会更好。如下图Episode 1的a0优于Episode 2的a0,因为reward更大
在这里插入图片描述
但是Episode数量太少起不来改善效果,原因是 1.智能体没在每个状态下尝试完所有动作 2.当前收集Episodes质量低,智能体采取的动作都很差

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/114378104