Lecture 3：Model-free Prediction and Control

前节回顾
Model-free Prediction

基于蒙特卡洛采样（MC）
基于时间差分（TD）
自举和采样

Model-free Control

策略迭代复习
MC
TD

前节回顾

在已知模型的时候，我们可以利用贝尔曼方程，和贝尔曼最优方程通过策略迭代和价值迭代进行更新。但是我们都需要知道概率和奖励，不需要与环境交互就可以更新。

Model-free Prediction

现在我们不知道MDP的模型，通过与环境交互，采集轨迹数据
在这里插入图片描述
两种方法：MC，TD

基于蒙特卡洛采样（MC）

通过与环境交互，获取实际的回报取平均，可以得到每个状态的价值。但是只能用在可以终止的MDP过程。
采取增量式平均
在这里插入图片描述
用在MC中：

a可以看作更新速率。

动态规划是利用自举的方式不停迭代，收敛。对于MC方法，通过实际收益更新，类似于蓝色的轨迹，每个时刻什么行为，到达什么状态都是确定的。所以只更新得到的状态，减小了更新成本，这也是与DP的区别。
在这里插入图片描述

基于时间差分（TD）

是动态规划和采样的结合，并且可以工作于没有终止的环节。
在这里插入图片描述
最简单的是TD（0），每走一步更新。由两部分组成，一部是分实际奖励，另一部分利用类似动态规划的方法，利用之前的估计更新。
其中的TD误差，就是TD target-V（s）
与蒙塔卡罗区别是，target一个时需要全部结束才能获得，一个只走一步就可以更新。