对Tabular方法的总结

sample model比distribution model模型更容易获得

space tabular

对于人工智能问题,value function, backing up value updates, and GPI是非常有用的组织规范。

上图说到了两个维度,第三个维度是on-policy与off-policy方法。

猜你喜欢

转载自blog.csdn.net/dengyibing/article/details/80837132