强化学习&蒙特卡洛3 | Q表

得到各种状态下采取各个动作的reward后可以建立通过动作状态函数建立Q表,Q表中的值意思是在当前状态下如果采取某个动作,然后一直按照当前策略执行到terminal状态的回报
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/114437047
今日推荐