【牛津大学博士论文】结合统计学习的自适应鲁棒控制

来源：专知
本文为论文介绍，建议阅读5分钟在本论文中，我们的目标是研究一个鲁棒的随机控制问题，其中代理不知道基础过程的参数值。

在随机控制问题中，代理选择最优策略以最大化或最小化性能准则。性能准则可以是标准控制问题的奖励函数的期望，也可以是鲁棒控制问题的非线性期望。在参数化的随机控制问题中，代理需要知道随机系统中模型参数的值，以正确指定最优策略。然而，代理知道模型参数值的情况几乎是不存在的。

在本论文中，我们的目标是研究一个鲁棒的随机控制问题，其中代理不知道基础过程的参数值。因此，我们构建了一个随机控制问题，假设代理不知道模型参数的值。然而，代理使用可观察的过程来估计模型参数的值，同时在一个鲁棒的框架内解决随机控制问题。

这个新的随机控制问题有两个关键组成部分。第一个组件是参数估计部分，代理使用基础过程的实现来估计随机系统中的未知参数。我们特别关注在线参数估计。在线估计器是我们的随机控制问题的一个重要成分，因为这种类型的估计器允许代理以反馈形式获得最优策略。第二个组件是随机控制部分，问题是如何设计一个时间一致的随机控制问题，使代理也能同时估计参数并优化其策略。在本论文中，我们在连续时间设置中解决上述问题的每个组件，然后仔细研究在此框架下的效用最大化问题。

在本论文中，我们研究了随机控制问题，其中代理没有对模型中参数值的充分了解，并且随着时间的推移，使用新的观察来估计参数，并同时更新最优策略。这个问题从理论和实践的角度都很有趣。标准的随机控制问题通常假设代理知道模型参数的值，这是一个很强的假设，在实践中并不成立。通过放宽对参数知识的假设，我们可以将新的随机控制框架应用于许多经典的随机控制问题，比如效用最大化，其中代理没有对随机系统中模型参数值的充分了解。这些随机控制问题中有两个关键组件。首先，随着时间的推移和更多信息的可用性，估计参数的值。在本论文中，我们关注在线参数估计。在线估计器是我们研究的随机控制问题的一个重要成分，因为在线估计器允许代理获得反馈形式的策略（马尔可夫）。其次，设计一个时间一致的随机控制问题，允许代理在线估计参数，同时推导出最优策略。在本论文中，我们在连续时间设置中解决上述问题的每个组件。

【牛津大学博士论文】结合统计学习的自适应鲁棒控制

猜你喜欢