强化学习cs234作业(长期更新)

assignment1 code:
值迭代的代码有问题,他跑出来的结果和policy iteration始终有偏差(具体表现在始终撞墙,掉坑非常倒霉感觉agent是个笨蛋)结果对比他人代码发现,我的代码里值迭代没有将计算Q值和V值分开,而实际必须分开。在这里我发现西瓜书的伪代码写的不是很具体,他说任意x,V‘(x)=maxQ,让我理解成要按s循环,每个s分别计算Q和计算V,
但是,这二者似乎并不会导致什么根本上的区别阿,这是为什么,是我代码实现有问题吗?为啥二者的不同导致agent行为差别这么大?

猜你喜欢

转载自blog.csdn.net/qq_44065334/article/details/113786383