作者：禅与计算机程序设计艺术

1.简介

自从深度学习和强化学习的兴起以来，基于模型的强化学习方法已经得到了广泛关注。但这些模型往往难以直接用于控制非线性系统（比如飞机、汽车等），因此需要将控制系统建模成一个线性动态系统，再利用线性控制知识对其进行仿真。然而，仿真是不精确的，在保证系统稳态的情况下，仍然存在控制系统收敛到较差状态的问题。随机干扰函数（Randomized Observation Function, ROF）便是一种可以解决此类问题的方法。

ROF采用多个不同目标函数的输出作为当前状态的输入，并用这些输出集成得到一个混合的输入。通过这种方式，可使得状态空间更加连续，并且控制性能更好。本文将对这一技术进行综述，并以自适应能量机动学系统为例，详细阐述其原理及应用。

2.相关工作

对于控制复杂系统来说，最流行的是基于模型的强化学习方法。然而，这些模型往往难以直接用于控制非线性系统，原因主要有两点：第一，它们通常假定系统是一个静态的描述，而非线性系统会受到许多外界因素的影响；第二，它们很少考虑到系统可能发生的环境变化，导致控制策略存在一定的偶然性。

一种解决这个问题的方法是随机干扰函数(Randomized Observation Function)。在这种方法中，系统的状态由多个观察者或目标函数给出，每个观察者的输出随机且相互独立，然后用这些输出集成得到一个混合的输入，这样就构造了一个连续型状态空间，从而可以利用线性控制策略进行控制。

实际上，RoFs可以看作是一种“小样本学习”的方法。通过抽取系统状态的多个视图或目标函数，从而在理

随机干扰函数原理讲解（附代码示例） Randomized Ensembles of Observation Functions for Control

1.简介

2.相关工作

猜你喜欢