斯坦福吴恩达《机器学习》--Fitted value iteration

  Fitted value iteration是为了近似连续状态的MDP的价值函数。适用于n维连续状态空间和离散动作空间的MDP。其核心思想是通过机器学习算法将价值函数近似为状态的线性或非线性函数。
  这里写图片描述
  算法流程如下图所示:
这里写图片描述
  1.随机的在状态空间中选取m个采样;
  2.将参数设定为0;
  3.对于采样中的每一个状态,计算最佳动作y,通过监督学习将V(s)学习为状态s的函数,重复直至收敛。
  上述第三步无法证明收敛,但是实际应用中通常都是收敛的。

猜你喜欢

转载自blog.csdn.net/zombee0/article/details/79155839