一种通用的卡尔曼滤波不动点近似和有效的时间差分学习

A Generalized Kalman Filter for Fixed Point Approximation and Efficient Temporal–Difference Learning

Stanford University
David Choi and Benjamin Van Roy

传统的卡尔曼滤波器可以被视为递归随机算法,其在给定一系列噪声样本的情况下通过预先指定的基函数的线性组合来近似未知函数。在本文中,我们将算法推广到一个近似于已知为欧几里德范数收缩的算子的固定点的算法。不用理想不动点的噪声样本,该算法基于Robbins-Monro随机逼近的思想,基于由运算符的应用产生的函数的噪声样本来更新参数。该算法思想源于时间差分学习,我们发展出了一种可能更有效的时间差分学习变体。我们通过涉及最佳停止和排队问题的计算实验建立算法的收敛性并探索效率增益。

关键词:动态规划,卡尔曼滤波,最优停止,排队,递归最小二乘,强化学习,时间差分学习。

我们考虑不动点计算的问题:

给定操作符F作用于函数,找到函数使得

我们感兴趣的是S非常大的情况,因为我们的动机是S的元素用d变量成分的向量来识别,因此S的基数在d中呈指数增长。 在这种情况下,不动点通常太大而无法存储,更不用说计算了。 被称为“维度诅咒”,这种现象导致许多实际问题的计算需求过高。

1.5 不动点卡尔曼滤波器

随机最速下降的众所周知的替代方案是卡尔曼滤波器,也称为递归最小二乘法。当随机最速下降选择r_t使适应时,递归最小二乘选择r_t以在所有点给出最佳的拟合绘制到那一点。卡尔曼滤波器是众所周知的一种方法,用于递归地求解最小二乘问题找到 r_{t+1},而不必存储。卡尔曼滤波器的许多特性特定于其在控制理论和通信中的更常见应用,因此我们在此不予考虑。对于从样本估计的问题,由卡尔曼滤波器生成的迭代r_t满足

最小化右边的r_t作为最小范数的向量。迭代按照递归计算

(1)

其中,

假设总和是非奇异的。由于这个总和对于通常使用的三种不同方法中的任何一种的小值t可以是单数的。
1.使用伪逆代替矩阵求逆;即,使最小化,并且如果有多个矢量达到该最小值,则它是最小范数之一。

2. 矩阵是正则化的,意思是


3.绘制附加状态,直到是非奇异的。在每次迭代时,矩阵H_t等于


在本文中,我们假设实现了第一种方法。

卡尔曼滤波器通常以比随机陡峭下降更少的迭代收敛。对于卡尔曼滤波器的更快收敛的一种解释是,如果矩阵H_t恰好等于同一性I,则迭代是相同的。当基函数被选择为正交时,这种情况也是如此。卡尔曼滤波器可被视为最速下降算法,其自适应地重新调整基函数以补偿被选择为难以缩放的函数。

我们现在通过类比卡尔曼滤波器来激发本文提出的方法。与随机最速下降的情况类似,当函数J^*的样本不可用时,卡尔曼滤波器是不合适的。 TD可以被视为随机最速下降的概括,当J^*不可用时适用。在本文中,我们研究了卡尔曼滤波器的类似推广,我们称之为不动点卡尔曼滤波器。不动点卡尔曼滤波器根据更新迭代

其中是标量步长的序列,是收敛到的矩阵序列。

存在许多版本的不动点卡尔曼滤波器,每个版本与步长序列,矩阵序列相关联。我们讨论两种版本:

1. 最接近卡尔曼滤波器的那个产生权重,满足

这是通过将矩阵设置为来完成的
并且步长为
2. 在先前版本中,选择权重r_t使得Φrt适合先前的样本。注意,由于,因此将每个先前样本称重到相同的程度。然而,似乎更近期的样本应该比在遥远的过去收集的样本更相关,因为权重向量r_t随着时间的推移而演变。为了更加重视最近的样本,我们可以降低此步长序列的衰减速率。例如,对于某些大的a,可以使用序列。以这种方式减小步长的衰减通常可以导致更快的收敛。特别是,虽然是传统卡尔曼滤波器的最佳步长序列,其具有固定的“目标”,不动点卡尔曼滤波器的“目标”正在发展的事实促使维持更大的步长进行更多的迭代。

1.6 最小二乘TD

最小二乘时间差分学习(LSTD)是卡尔曼滤波器的另一种推广,适用于期望函数J^*不可直接获得的情况。 这个算法由Bradtke和Barto [11]引入,他们也提供了一些收敛理论。 在[10]中也可以找到对算法和扩展的出色讨论。 [11]和[18]中提出了相关的收敛理论和进一步的扩展。 在本节中,我们解释了不动点卡尔曼滤波器和LSTD之间的相似点和不同点,对于特殊情况

在每次迭代时,LSTD最小化\Phi r\Pi F\Phi r之间的经验平方误差。 它的迭代满足

对于涉及自治系统或固定策略的问题,F是线性的,并且r_t是线性最小二乘问题的解,可以有效地求解。 实证研究表明,当F为线性时,LSTD收敛速度快于TD [11,10]。 然而,对于F是非线性的更一般的情况,迭代很难计算,并且LSTD不能以直接的方式应用。 在这种情况下,不动点卡尔曼滤波器可以被视为LSTD的松弛,其迭代满足略有不同的等式:

这可以高效地计算。

1.7 论文的贡献和组织

本文的主要贡献包括:

1.证明不动点卡尔曼滤波器收敛。

2.计算实验证明了相对于TD的潜在优势。

不动点卡尔曼滤波器提供的主要优点是它以比TD更少的迭代收敛。每次迭代所需的计算时间增长,但即使考虑到这种增加,计算时间方面的收敛速度也应该优于TD提供的收敛速度。此外,在“学习”环境中,用于更新迭代的样本与经验观察相关联,不动点卡尔曼滤波器提供的更快收敛转化为更有效地使用观察。

本文代表了早期版本的扩展版本[12]。这篇早期的论文没有提出当前论文中包含的收敛证据。这篇扩展的论文还报告了新案例研究的实证结果。

在本文的其余部分安排如下。在下一节中,我们提出并证明了收敛定理。使用超中心收敛定理作为起点证明了该定理,因为据我们所知,文献中没有直接适用于我们特定问题的一般随机逼近定理。在第3节中,我们展示了计算结果。结果通过涉及最佳停止问题和排队问题的实验产生。在最佳停止问题背景中,兴趣算子F是关于加权欧几里德范数的收缩,沿着我们已经讨论过的线,并且TD和不动点卡尔曼滤波器都保证收敛。但是,在排队上问题背景中并非如此。这里,我们应用TD和不动点卡尔曼滤波器,即使算子F不是相对于加权欧几里德范数的收缩。然而,我们的计算结果很有希望,因为两种算法似乎都能产生有效的控制策略。结束语将在结论部分作出结论。

猜你喜欢

转载自blog.csdn.net/qq_29675093/article/details/86468542
今日推荐