强化学习习题-动态规划策略学习格子问题

题目描述-格子游戏:

        每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:

(1)策略估值:使用动态规划方法求当前策略下每一格子对应的状态估值

解:

(2) 策略提升:写出上述估值函数对应的贪心策略

解:

(3)最优策略:求解该问题最优策略及其相应的状态估值

解:

状态不变,最大策略为:

发布了289 篇原创文章 · 获赞 163 · 访问量 23万+

猜你喜欢

转载自blog.csdn.net/Suyebiubiu/article/details/103606407
今日推荐