Planar Evasive Aircrafts Maneuvers Using Reinforcement Learning

原文下载：https://download.csdn.net/download/qq_29675093/10950893

虽然是2012年的论文，但是无论从理论深度还是实用价值都不足。动作限定很死，左右离散二值。从论文内容上看，也要怀疑作者是否真的实现了仿真学习过程。因为10e8的状态空间如何处理文中并没有提到，式（13）的奖励设计也很可笑，速度小于零的要求毫无必要。我是从孙景亮等: 《基于自适应动态规划的导弹制导律研究综述》综述文章中看到这篇文章的，该综述也是唯一一篇引用此文的。国内研究者写综述只求全不求精的现象可见一斑。

Dongjin Lee and Hyochoong Bang

摘要。本文提出了强化学习技术，以实现飞机在参与过程中的规避策略。简化的点质量模型用于描述飞机和导弹的运动方程。导弹遵循纯比例导引制导法（PPNG）来攻击飞机。提出了一种强化学习形式的Q学习算法来学习规避动作。通过数值模拟分析了所提出方法的性能。结果表明，该飞机通过强化学习与bang-bang型动作剖面正确地避开了导弹。

1 引言

许多研究人员使用差分博弈分析或最优控制技术研究了导弹逃逸问题。通过固定导弹制导律可以实现单侧最优控制问题的制定。 Ben-Asher和Cliff通过假设线性化运动学以恒定速度研究了规避策略[1]。 Imado和Miwa在[2]中研究了更完整的导弹逃逸问题模型。 Ong和Pierson将逃逸问题视为近似参数优化问题[3]。从以前的工作来看，为了解决最优控制问题，我们需要设置一个性能指标，例如最接近时的相对距离并将其最大化[3]。然而，准确的规避策略是避免相互冲突的策略。换句话说，没有必要最大化最终的未命中距离以实现导弹逃避。此外，优化方法需要大量的计算时间才能找到最佳解，因此，最优解难以实现为实时制导律[10]。为了克服这些问题，我们建议采用强化学习技术来推导智能回避动作。在学习融合之后，飞机可以根据学习的策略轻松利用规避策略。

在这项研究中，我们采用一种简化的点质量模型，以恒定速度描述飞机和导弹动力学。我们考虑平面接合并假设导弹遵循纯比例导航制导法来捕获具有恒定导航增益的飞机。引入Q-learning [4]作为强化学习算法，以获得最大化奖励期望的最优策略。最后，构建数值模拟以使用各种拦截场景来评估所提出的方法。

2 问题制定

2.1 Evader运动方程

逃避的飞机运动方程可以用简化的四阶点质量模型来表示。平面上的控制方程是

（1）

其中 $x_e,y_e,\psi_e,V_e,a_e$ 是飞机的状态，分别是水平坐标，航向角，速度，横向加速度指令。在这项研究中，我们假设 $V_e = 200\: \textup{m / s}$ 是恒定的，并且飞机横向加速度指令受到限制

（2）

其中 $g = 9.81m / s^2$ 是重力加速度， $n_e = 6$ 是最大重力载荷。下标m和e分别代表导弹和逃避的飞机。

2.2导弹运动方程

本研究中使用的导弹动力学模型是简化的四阶点质量模型。运动方程是

（3）

其中 $x_m,y_m,\psi_m,V_m,a_m$ 是导弹的状态，分别是水平坐标，航向角，速度，横向加速度指令。我们还假设 $V_m = 500\textup{ m / s}$ 是恒定的，导弹横向加速度指令受到限制

（4）

其中 $n_m = 10$ 是最大重力负荷。导弹横向加速度指令由纯比例导航制导律产生。在许多目前可操作的战术制导导弹中，已经实施了纯比例导引（PPN）用于末制导。由于PPN制导律不需要前向速度变化，因此对于空气动力学控制的追踪者而言比真正的比例导航（TPN）制导法更为合适[6]。

（5）

其中N = 3是导航常数， $\dot{\lambda }$ 是由（6）给出的视线（LOS）旋转速率。

2.3拦截运动方程

我们可以考虑截取运动方程如下

（6）
其中 $d,\dot{d},\lambda,\dot{\lambda}$ 分别是相对距离，闭合速度，LOS角度，LOS转速。我们可以使用相对于飞机的LOS角来引入拦截状态向量 $\mathbf{X}_I$ 。

（7）

3强化学习

3.1 Q学习

Q-learning是一种强化学习算法的最新形式，它不需要其环境模型，可以在线使用[5]。其最简单的形式，一步式Q学习，定义为

（8）

其中r，α，γ分别是奖励信号，学习率，折扣率。在本研究中，我们设定学习率α= 0.5，折扣率γ= 0.99。动作值函数Q（s，a）表示在策略τ下的状态s下采取动作a时的预期返回，如下所述

（9）

并且可以通过导出最优策略τ*

（10）

（11）

3.2 状态和动作空间

在将Q学习应用于连续逃避导弹问题之前，有必要定义要学习的状态和动作，并将状态和动作空间划分为有限数量的空间。拦截状态和飞机横向加速度分别分配给状态 $\mathbf{X}_I =s\in S$ 和动作 $a_e =a\in A$ 。动作空间分为两段A = { - 6g，6g}，代表最大的左右转弯。状态空间中有 $10^8$ 个状态，每个拦截变量分为100个状态。状态空间受到限制