最小二乘策略迭代 least-squares policy iteration (LSPI)

LSPI是将价值函数逼近与线性架构和近似策略迭代相结合的方法。LSPI也可以理解为是LSTD与Q学习相结合。

用于预测问题的最小二乘时间差分学习算法（LSTD），学习固定策略的状态值函数，相比纯粹的时间差分算法更有效率地使用样本经验。

最小二乘策略迭代（LSPI）学习状态 - 动作值函数，该函数允许在没有模型的情况下进行动作选择，并且在策略迭代框架内进行增量策略改进。 LSPI是一种免模型(model free)的异策略（off-policy)方法，可以有效地（并在每次迭代中重用）以任何方式收集的样本经验。

将样本收集方法，线性近似架构的选择和求解方法这些剥离开，集中关注有利于实际强化学习的有区别的部分。 LSPI是在平衡倒立摆的简单任务上和平衡骑自行车到目标位置这种难一些的任务进行测试的。在这两种情况下，LSPI通过仅观察相对较少数量的试验来学习控制倒立摆或自行车，其中行动是随机选择的。

使用相同的值函数体系结构，把LSPI与Q学习（有和没有经验重放）进行比较。LSPI在艰难的自行车任务中相当一致地实现了良好的性能，而Q-learning变体很少能够保持平衡到目标位置所需的时间。

Q-learning变体倒立摆实验

使用相同的线性架构，使用Q学习重复相同的实验。以相同的方式收集样品，Q-学习在每次运行时单次通过样本组。学习率α根据典型的方式进行调整：

其中 $\alpha_0$ 是初始值， $\alpha_t$ 是时间步 t 的值， $n_0$ 是控制下降的常数。在我们的实验中，我们使用并且将 $n_0$ 设置为适当的值，使得在每次运行的最后一个样本处。结果如图17所示（注意垂直轴的比例）。 Q-learning没有成功地平衡钟摆超过几十个时间步，尽管有使用更多数据会改善的趋势。

通过Q学习和经验重放（ER，experience replay）重复相同的实验。在这种情况下，允许Q-learning / ER执行100次通过样本，同时根据上面的时间表调整学习率，并且将 $n_0$ 设置为适当的值，使得最后一次pass的最后一个样本的在每次运行中。这类似于LSPI处理样本的方式，尽管允许LSPI最多运行20次迭代。 Q-learning / ER表现非常好，优于LSPI。图18显示了平衡步骤的平均数。在大约400次训练集之后，所学习的策略非常好，预期的平衡步数接近3000.对于700次或更多次训练，预期的平衡步骤数约为3000步。图18还显示了整个实验期间获得的最差和最佳策略。偶尔会发现只用50个训练片段的优秀策略。随着750或更多的训练剧集，甚至最糟糕的策略也几乎始终平衡钟摆。在这种情况下，Q-learning / ER的成功主要是由于径向基函数的特性非常好。这些基函数被自动归一化，它们的局部性及其大小都具有对使每个参数的适当调整的指示性。

最小二乘策略迭代 least-squares policy iteration (LSPI)

Q-learning变体倒立摆实验

猜你喜欢