强化学习bellman求状态价值笔记

现在求在State5状态下的VAL
首先选择a3操作的概率是0.5,即时奖励是10,到达stop位
然后选择a4操作的概率也是0.5,即时奖励是1,还没完
 此时走到的位置往下走有三种可能
 走第一条路的概率是0.2,目标点VAL是-1.3
 走第二条路的概率是0.4,目标点VAL是2.7
 走第三条路的概率是0.4,目标点VAL是7.4

猜你喜欢

转载自blog.csdn.net/cj1064789374/article/details/105875798