随机干扰函数原理讲解(附代码示例) Randomized Ensembles of Observation Functions for Control

作者:禅与计算机程序设计艺术

1.简介

自从深度学习和强化学习的兴起以来,基于模型的强化学习方法已经得到了广泛关注。但这些模型往往难以直接用于控制非线性系统(比如飞机、汽车等),因此需要将控制系统建模成一个线性动态系统,再利用线性控制知识对其进行仿真。然而,仿真是不精确的,在保证系统稳态的情况下,仍然存在控制系统收敛到较差状态的问题。随机干扰函数(Randomized Observation Function, ROF)便是一种可以解决此类问题的方法。

ROF采用多个不同目标函数的输出作为当前状态的输入,并用这些输出集成得到一个混合的输入。通过这种方式,可使得状态空间更加连续,并且控制性能更好。本文将对这一技术进行综述,并以自适应能量机动学系统为例,详细阐述其原理及应用。

2.相关工作

对于控制复杂系统来说,最流行的是基于模型的强化学习方法。然而,这些模型往往难以直接用于控制非线性系统,原因主要有两点:第一,它们通常假定系统是一个静态的描述,而非线性系统会受到许多外界因素的影响;第二,它们很少考虑到系统可能发生的环境变化,导致控制策略存在一定的偶然性。

一种解决这个问题的方法是随机干扰函数(Randomized Observation Function)。在这种方法中,系统的状态由多个观察者或目标函数给出,每个观察者的输出随机且相互独立,然后用这些输出集成得到一个混合的输入,这样就构造了一个连续型状态空间,从而可以利用线性控制策略进行控制。

实际上,RoFs可以看作是一种“小样本学习”的方法。通过抽取系统状态的多个视图或目标函数,从而在理

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132914100