文章目录

Abstract
I. INTRODUCTION
II. MODELS, STABILITY AND CONTROLLABILITY OF SWARMS

A. Types of Multiagent Systems
B. Models for Swarm Dynamical Systems
C. Physics-Based Models for Robotic Agents
D. Synchronization With Leader Following
E. Leader Selection and Sensor Placement
F. Synchronization and Hierarchical Stability for Swarms

III. CONTROL OF SWARMS IN 3-D WORLDS

A. Trajectory Generation and Motion Planning for Swarms
B. Simultaneous Planning With Distributed Assignment
C. Collision Avoidance and Collision-Free Motions
D. Aerial Manipulation
E. External Control of Aerial Swarms

IV. AERIAL DISTRIBUTED SENSING, MONITORING, AND COOPERATIVE MAPPING

A. Target Search and Tracking
B. Surveillance and Monitoring
C. Cooperative Aerial Mapping

V. TECHNOLOGY FOR SWARMING

A.Platforms
B. Vehicle Power Management
C. Pose and State Estimation
D. Communication Infrastructure

VI. CONCLUSION AND FUTURE WORK

声明：本篇翻译自《A Survey on Aerial Swarm Robotics》

Abstract

随着无人机价格下降、通信、传感和处理硬件的性能提高，空中群体用于解决实际问题的使用一直在稳步增长。硬件的商品化降低了单位成本，从而降低了进入空中群机器人领域的障碍。群体的关键使能技术是算法族，其允许群体的各个成员在它们之间进行通信和分配任务，规划它们的轨迹，并以这样的方式协调它们的飞行，从而有效地实现群体的总体目标。这些算法通常以分层方式组织，赋予群体在每个级别的自主权，并且原则上可以将人类操作员的角色减少到更高级别的交互而无需直接干预。该技术取决于控制和估算的理论工具的巧妙和创新应用。本文回顾了这些理论工具的最新技术，特别关注它们是如何为空中群体开发和应用的。空中群体与成群的地面车辆在两个方面不同：它们在三维空间中运行，并且单个无人机的动态增加了额外的复杂性。我们回顾了动态建模以及稳定性和可控性的条件，这些是实现协同飞行和分布式传感所必需的。本文的主要部分重点关注轨迹生成，任务分配，对抗性控制，分布式传感，监测和制图等主要结果。在可能的情况下，我们指出空中机器人的物理和子系统技术如何应用于这些单独的区域。

I. INTRODUCTION

空中机器人技术已经成为机器人和控制界的一个热门研究领域。自主航空机器人可以自由地利用三维（3-D）空域，通常使用零排放的分布式电机实现垂直起飞和着陆能力。成群结队的这种空中机器人或自主无人机（UAV）正在成为一种颠覆性技术，能够实现高度可重新配置的按需分布式智能自组织系统，对科学，技术和社会的许多领域产生重大影响，包括跟踪，检查和运输系统。在任何应用中，自主无人机集群比单个大型无人机更强大，更具有灵活性（适应性，可扩展性和可维护性）和鲁棒性（可靠性，生存性和容错性）[1]。

本文回顾了空中蜂群机器人的研究进展，为通过自主、安全的操作实现空中机器人群的上述优势，本文列出了还需要弥补的一些技术空白。本文所包含的论文代表了航空群建模、控制、规划、传感、设计和实施的最重要和最有前景的方法，强调了增强灵活性、鲁棒性和自主性。

蜂拥而至的空中机器人必须在复杂的三维世界中自主运行，包括城市峡谷和越来越拥挤无人机和商用飞机的空域。在3-D世界中飞行的空中群体的成功取决于控制空中机器人的个体和集体运动的分布式和协同能力，其中有限的资源用于机载计算，电力，通信，传感和驱动（所以称为尺寸，重量和功率，或SWaP，权衡）。目标是提供一个统一的框架，在这个框架内分析权衡：大规模集群的计算效率、控制和估计算法的稳定性和鲁棒性，和最佳系统性能。

与先前关注机器人群的调查文章[2]相比，我们强调成群的空中机器人在三维世界中飞行。关于群体机器人的其他相关调查论文包括[3]，其重点是底层控制，合作任务，时空规划以及通用多机器人系统的共识等问题。我们的调查报告解决了从具有有限SWaP的2-D过渡到3-D相关的挑战，以及群体协调或协作以及分布式跟踪和估计的应用。我们的调查报告还讨论了将自主空中群体系统与其他类型的机器人（如地面车辆）相结合的挑战。从技术角度来看，航空群机器人研究的更广泛影响包括可扩展性和与2-D机器人网络（例如地面机器人）和其他3-D无人系统（例如航天器群和水下群）的向下兼容性。空中群体机器人的区别特征总结如下：

三维流量和群体自治：空中群体的运动规划和控制方法依赖于自主生成的没有固定边缘或道路的三维交通流量。实时飞行控制和群体操作还必须考虑高保真六自由度（6-DOF）飞行动态模型，交通变化，天气以及在拥挤的城市环境中发现的其他随时间变化的操作条件。这些方面与那些侧重于具有更长时间范围的三维空中交通流量控制以及二维道路交通流理论，二分匹配和运输操作理论（假设固定飞行路径和道路/路线拓扑）形成鲜明对比。此外，现有的空中交通管制系统要求操作人员对机场拥堵和防止空中碰撞进行实时控制。我们将描述需要最低水平的人为干预的自主空中群系统的同时6-DOF轨迹生成和最优群体路由或控制技术的方法。

通过层次结构和多模态实现可扩展性：在复杂环境中实现大规模的群体自治需要理论上有根据的，计算效率高，可扩展的算法。这可以通过使用分层体系结构来实现，用于在存在不确定性的情况下解决可扩展性和信息管理的分散规划，推理，学习和感知。在用于处理复杂性和高维度的机器学习和控制领域中，分层方法是普遍存在的（例如，分层任务网络，顺序博弈论中采用的分层树或网格网络，以及奇异扰动理论）。由于系统中时间尺度固有的多样性，它们也特别适用于航空机器人。内环飞行控制，尤其是姿态动力学，必须比空中机器人的刚体动力学的时间尺度以及机翼或螺旋桨的结构动力学运行得更快，以确保稳定的飞行。板载感知算法还必须以适当小的时间尺度运行，以使机器人能够避免与动态的，意外的障碍物碰撞。无人机群的瞬态机动控制与刚体飞行动力学同时控制，而外环控制（即群体的运动规划）和协同估计和规划算法比飞行动力学慢一个数量级。这些外环组件必须与其他车辆的感知和推理，环境条件以及科学或客户需求紧密结合。通过在大规模空中群网络的空间和时间尺度上利用分层连接，可以减少空中群的这种复杂性。在本调查报告中，我们扩展了依赖于分层架构的航空机器人的算法和技术。
在这里插入图片描述
本文的组织结构如图1所示。在每一部分中，我们试图从文献中为每个子问题提供基本的工作解决方案。然后，我们将对这些解决方案进行改进，这些解决方案构成了各个主题领域的最新技术水平。在第二节中，我们回顾了群体动态和非线性稳定性工具的建模，特别是层次分解，以及空中群的可控性问题。在第三节中，我们回顾了最优控制，运动规划，任务分配和其他控制算法。在第四节中，我们讨论了使用空中群的分布式传感和估计，特别是解决（多）目标跟踪，分布式监视和协作映射的问题。在第五节中，我们回顾了空中群体的基本系统级和组件技术。最后，我们在第六节中总结了本文，讨论了空中群体领域的开放性问题。

II. MODELS, STABILITY AND CONTROLLABILITY OF SWARMS

A. Types of Multiagent Systems

表I基于代理的数量及其相互作用呈现了多代理系统的分类。它直接影响系统的建模方式：控制方程的选择，对基础连通性的假设，以及控制输入和信息交换的性质。
在这里插入图片描述
在团队中，每个代理人的行为和策略都试图明确地最大化本地目标。在某些情况下，这可能导致代理人相互竞争，而在其他情况下，局部最优行为也可能（近似）最大化总体收益。后者是游戏理论方法和拍卖算法的前提[15]，[16]。例如，在拍卖中，最大化局部利益也可以最大化净总体收益（定义为个人收益的总和），同时解决双重定价问题[15]。与团队相比，底层几乎总是由合作相互作用组成，并且代理状态之间的关系对于诸如能量效率之类的目标（例如，在空气动力学上最佳V形成中的鸟群[17]而言是明确定义的。）。群通常指的是一组类似的代理，它们显示由代理之间的局部交互引起的紧急行为。局部交互可以是竞争性的，也可以是合作性的。虽然群通常意味着一个大的代理组（10到100秒或更多），但本调查报告使用“群（swarm）”也包括较小的组（见表一）。

扫描二维码关注公众号，回复： 5776013 查看本文章

B. Models for Swarm Dynamical Systems

最早的工程模型之一来自Reynolds [18]，他用它来为计算机图形生成真实的群体可视化。 Reynolds rules涵盖了基本的邻居间相互作用：一种控制代理之间稳态分离的非线性函数，以及一种速度反馈项，旨在确保每个代理的速度跟踪其邻居的平均值。 Reynolds 的模型如下：
在这里插入图片描述
其中 $x_i$ 和 $v_i$ 表示第 $i$ 个代理的位置和速度; $W(x_j-x_i)$ 是耦合函数; $N_i$ 是第 $i$ 个代理人的邻居; 而 $f_i$ 表示对代理人的外部影响，例如领导者或入侵者的影响。
另一项早期工作[19]使用以下公式研究了在二维空间和离散时间内移动的群：
在这里插入图片描述
其中噪声 $Δθ_i(t)$ 正常分布在集合 $[-η，η]$ 中。重要的是，假设速度 $v_i$ 对于所有 $i$ 和 $t$ 具有恒定的幅度，其标题由 $θ_i(t)$ 给出。尽管模型明显简单，但它能够捕获长程有序的可能性，如本节后面所述。

在[18]和[19]中这些模型的广义表示可以通过使用偏差分方程（partial difference equations, PdEs）[20]，[21]来获得。获得PdEs的规则允许与连续PDE的自然关联，因此，除了[20]中使用的波动方程之外，还有基于偏微分方程导出flocking laws的方法。

在[22]中提出了一种统一的非线性连续体模型，与基于图上离散定义的代理的模型相反。
在这里插入图片描述
据称该模型类似于鸟群的两个空间维度，尽管该模型本身不受任何特定维数的限制，也可适用于三维群体。常数 $\beta ,{{D}_{\{.\}}}$ 都是正的; $\alpha> 0$ 对应于有序速度状态（稳定飞行速度 $\left\| v \right\|=\sqrt{\partial /\beta }$ ），而 $\alpha<0$ 则产生无序相（例如，游荡在固定点附近游荡）。压力项 $P={{\sum\nolimits_{k}{{{\sigma }_{k}}(\rho -{{\rho }_{0}})}}^{k}}$ ，其中 ${\sigma}_k$ 是常数， ${\rho}_0$ 是平均局部密度，取代Reynolds模型中的类似电位的项。最后， $f$ 表示干扰，模拟为高斯噪声。

＆emsp;＆emsp;增加（2）中的噪声值（即η）会使群体自发地选择有序状态[19]，其中噪声的临界值与群体中的药剂数量相关。推测这是由于群体中信息的扩散流动; 即，代理与时变的邻居集相互作用，并且从长远来看，这导致信息在整个群中的扩散。这个猜想在[22]中证实了一个二维群，其中（3）中的非线性对流项被认为是在大长度尺度上稳定有序状态的原因。

＆emsp;＆emsp;在群体的背景下，人们对各个代理人的状态的稳定性和趋同性问题感兴趣。对于这种分析，通常使用线性（化）方程组，其中最简单的是系统。
在这里插入图片描述
矩阵L或 $（L⊗Ip）$ 被称为拉普拉斯矩阵并且满足$L1_n $= 0，其中 $1_n∈R^n$ 是1的向量。显然，常数L对应于固定通信拓扑; 当通信拓扑随时间演变时，使用时变L（t）。这与从（2）中找到的扩散耦合项相同。

对于涉及分配或路由的问题，有助于将环境建模为“功能箱”的集合，以及限制代理在箱之间转换的可访问性条件。最终目标是将n个代理分配给一组代理，其中每个代理可以容纳最多 $p_i≥1（m <n; i = {1,2，...，m}）$ 代理。对于每个代理i和bin j，可访问集 $E_ij$ 隐含地考虑代理的动态以及由环境施加的几何约束。这些模型已被用于控制群体形状与箱子之间的概率转换图[23]和四旋翼形成控制与确定性转换定律[24]，[25]。

C. Physics-Based Models for Robotic Agents

类似于（4）的一般线性系统可以在双积分器设置中容易地构造[例如，SO（3）上的姿态动力学或SE（3）上的刚体运动]，或者通过用非线性版本替换动力学。这里特别有趣的是包括欧拉 - 拉格朗日方程的群系统
在这里插入图片描述
其中 $q_i∈R^p$ 是第i个代理的广义状态; $q_d(t)$ 是目标集体运动的期望轨迹或虚拟领导者; $τ_i$ 是外力/扭矩，它是代理之间耦合的来源。如果使用线性扩散耦合，则 $τ_i$ 将产生类似于（4）的L。欧拉 - 拉格朗日方程在机械手[26]，[27]和航天器或飞机[SE（3）]的刚体运动研究中常常出现机器人技术，它们在SO（3）[28] - [30]上具有姿态动力学。并经常有铰接的翅膀[14]，[31]，[32]，附肢或附加的操纵器。

在[33]中，完整的6-DOF飞机模型与执行器时间延迟一起用于计算最佳运动原语和3-D路径规划，以便快速穿越森林。它表明，传统的2-D Dubin车型通常用于2-D飞机运动规划和群控，不适用于3-D中的空中机器人。为了研究成群的固定翼或扑翼飞行机器人，将空中机器人建模为具有速度动力学（速度V，爬升角γ和航向χ）的点质量（质量m）可能就足够了。
在这里插入图片描述
其中L，D和T分别是升力，阻力和推力。在扑翼飞行机器人中，T还是V和α的函数。在假设旋转动力学（α和μ）稳定并快速收敛到指令值的情况下，该模型是准确的。三维航空机器人模型可以有效地用于减少运动规划系统的计算负担，并生成最佳，稳定和安全的轨迹（即避免碰撞）[14]，[33]。在[34]中，推导了基于模型的控制律，以及避免碰撞系统，用于一组翼伞有效载荷系统。采用类似于（6）的模型，并且使用关于相邻代理的位置的反馈来命令每个代理的转速（ $χ˙$ 在（6））的期望值。

虽然术语L，D和T已经在（6）中的控制输入的精神中呈现，但重要的是要注意，它们的值可能在一群空中机器人中受到相邻飞机引起的流动的显着影响。当空中机器人经历故障并且不能准确地保持其位置时，由于故障飞机的邻居所经历的流场的不利破坏，它可能对地层效率产生不利影响。这种基于物理的交互是大气层飞行器所独有的。

D. Synchronization With Leader Following

为了控制群体，有时定义其余群体代理遵循的物理或虚拟领导者是有用的（参见图2）。领导者的动作可以先验地给出或者通过单独的动力学直接控制。或者，可以使用最优控制或运动规划算法来计算期望轨迹（即，虚拟引导者的路径）（参见第III节）。其余的代理人通过邻居之间的互动[35]或通过与领导者的互动来间接控制[36]，[37]。跟踪具有高度非线性动态的代理的虚拟领导者的轨迹或期望的集体行为的问题（例如，群集具有动态SE（3）的刚体或具有多DOF操纵器的代理）可以与与邻近代理同步的问题同时解决。基于时间尺度分离，这个统一的框架将轨迹跟踪与指数稳定的共识控制器相集成，该控制器使群体的相对运动比跟随共同的领导者或期望的轨迹更快地同步。在存在有界干扰和建模误差的情况下，这比非耦合跟踪控制定律产生更小的同步误差[28]（见图2）。如第II-F部分所述，这种时间尺度分离可以解释为更快和更慢动态的分层连接。其他工作遵循同步耦合非线性动力系统的同一问题公式，与轨迹跟踪同时用于各种多机器人/多车辆应用。我们可以利用将多个虚拟领导者与多个同步组混合的并发同步来创建由多个异构系统组成的复杂时变群[27]，[28]，[30]，[38]。需要确定需要选择多少（虚拟）领导者，以及提名哪些代理人作为领导者。该问题类似于可控性，而双重可观察性问题对应于分布式估计的传感器放置。
在这里插入图片描述

E. Leader Selection and Sensor Placement

当空中群体代理的动态相同时，来自给定的一组领导节点的可控性（等效地，来自给定传感器组的可观察性）取决于图的拓扑以及各个边缘权重。当图形上定义的系统对于几乎所有边缘权重是可控的时，在图形上定义的系统被认为是结构上可控的，并且当它对于所有边缘权重是可控的时，其结构是可控制的。对于具有单个领导节点的结构可控性，有根树的存在是必要且充分的[39] - [42]。在[43] - [45]中，导出条件和算法以确定一组输入节点是否允许强结构可控性。在[46]中给出了连接大型网络所需的驱动节点数量及其聚合属性（节点数，平均度和度指数）的公式。据观察，具有最高可控性程度的驱动节点往往不是最大程度的节点。

在实际问题中，我们通常对给定的一组边缘权重的可控性感兴趣，特别是对于相同的边缘权重[即，该系统由（4）中的拉普拉斯矩阵-L描述]。对于这个问题，存在基于对称性和均分的必要条件[47] - [49]。虽然这些条件还不够，但已经为路径和循环图[50]以及一类弱连通有向图[51]提出了一套充分条件。

必须注意的是，领导者的选择（等效地，传感器放置）不仅仅由于其可控性（分别是可观察性）属性而是最佳的，因此，有必要测量候选驱动器节点的影响。关于实际控制/估计目标[52]。如果目标是优化目标函数，如（7）中所示，可以使用来自子模块优化的技术[53] - [55]解决计算领导者/传感器节点的问题。子模函数的最大化是NP难的;然而，贪婪算法可以使用目标函数的至多O（n2）计算产生具有保证次优性的近似解。子模块优化也可以从本文强调的分层组织角度来看。

F. Synchronization and Hierarchical Stability for Swarms

考虑（4）扩散耦合。众所周知，矩阵L在下面的条件下在基础图上产生一个稳定的系统：

1）无向时不变图：图连接[56]。
2）定向时不变图：当且仅当图是平衡的并且弱连接时，对平均值的一致性[57]。根树的存在保证了共识，但不一定是平均值[58]。
3）时变无向/有向图：满足广义强连通性条件[58，命题1和2]，[59]。

拉普拉斯矩阵（L）捕获扩散耦合项对群或同步稳定性的影响。拉普拉斯矩阵的谱特征已被用来证明符合雷诺兹规则的群体的稳定性[19]，[59] - [61]，基于距离的通信拓扑[62]的稳定性，以及网络的指数稳定性，非线性欧拉 - 拉格朗日系统[27]，[28]，[31]，[63]。 Belabbas [64]通过分岔说明了非线性对网络系统稳定性的影响。稳定性分析的替代方法包括重整化群的工具[22]和正常双曲不变流形理论[65]。上面定义的拉普拉斯矩阵可以用其变体（边缘拉普拉斯矩阵）代替，以求解稳定性以及鲁棒性和最优性[66]。

在没有像（4）这样的其他动态术语的情况下，上述条件是决定性的。输入 - 输出动力学[67] - [69]的无源性通常用于分析具有拉普拉斯矩阵[L in（4）]和非线性动力学项的网络非线性系统的稳定性[例如，对流项（3）或（5）中的拉格朗日形式。输入 - tostate稳定性（ISS）用于研究具有有界不确定性的群体系统的稳定性[70]，[71]。收缩分析[72]用于研究多个解轨迹的全局指数稳定性，因此形成增量稳定性分析的基础。基于收缩的增量稳定性分析代表了与使用Lyapunov函数的传统无源性方法的重要背离，Lyapunov函数主要关注平衡点的稳定性。

这种指数安全且鲁棒的同步框架也可用于研究由同步控制器或扩散通信耦合连接的网络非线性动力学的同步稳定性和鲁棒性[27]，[73]。同步框架[27]，[28]，[73]中关于无源形式主义的增量稳定性的一个主要优点是，由于差分收缩分析，本文强调的动态系统的分层组合结构可以更容易地处理。不使用一些隐式运动积分。

此外，可以证明使用黎曼度量的基于收缩的指数增量稳定性具有与ISS，输出无源性和有限增益Lp稳定性相关的优越鲁棒性[28]。许多类型的模型不确定性可以被投射到有界扰动项中，包括恒定的未知时间延迟[27]，[72]和由异质动力学引起的误差[27]，[63]。最近，增量稳定性已经扩展到具有无界随机扰动的多个随机非线性微分方程[38]，[74]的同步稳定性。

一些上述结果的扩展以事件触发的信息交换的形式出现。与前面的情况一样，不是连续地或在有限的时间间隔内交换通信，而是在离散的时刻在相邻代理之间交换信息的稳定性就足够了。在无向图上发现了单积分动力学的稳定条件[75]，平衡有向图的共识[76]，时变图上的轨迹收敛[77]，以及平衡图上一般非线性动力学的同步[28]，[73]，[78]。这些条件通常取决于潜在的动态，也有助于确定必须触发通信的条件。

III. CONTROL OF SWARMS IN 3-D WORLDS

群体适合的典型任务包括分布式传感，搜索和救援[79]，以及使用稀疏孔径技术的成像[1]，[5]。这些问题可以分为两个不同的类：一个是要探索环境（例如，覆盖，地图构建），另一个是环境只能被遍历或利用（例如，越过障碍物）与规定的目标状态或期望的形成。为了有效地完成任何这些任务，群组必须能够规划所有团队成员的路径，以安全可靠地到达其最终目的地。每个单独的机器人不仅需要避免与环境中的静态和动态障碍物碰撞，而且群体中的个体也必须避免彼此碰撞。此外，在复杂的障碍物填充环境中，机器人需要对其运动进行排序，以避免让一个机器人阻挡其他机器人的路径。例如，如果群体需要通过一个小瓶颈并且其中一个代理的最终目标只是通过该瓶颈，那么它必须是最后一个通过才能阻止团队的其他人[80] ]。

A. Trajectory Generation and Motion Planning for Swarms

可以基于轨迹是否与第III-B节中讨论的任务分配问题一起生成来对轨迹生成的方法进行分类。独立于任务分配算法生成的轨迹可以被认为与传统的最优运动规划或边界值问题相同。流行的随机算法，如PRM [81]，快速探索随机树（RRT）[82]和RRT * [83]，可能无法有效地获得多个6-DOF航空机器人的最佳和安全飞行;它们不仅不能有效地处理6-DOF非线性动力学，而且它们还使用基于渐近最优性的有限原始集合而不使用更高保真度的动态模型，这可以排除高维空间中的大量其他可飞行轨迹。计算能力的快速发展与算法的改进相结合，使得能够开发能够实时解决约束优化问题的工具，可以更好地为形式的最优控制问题提供显式或近似的解决方案。
在这里插入图片描述
受制于：

有效的目标和任务分配，包括终端状态机器人动力学，能力和输入约束状态约束（无碰撞区域，传感限制）

其中 $γ_j(t)$ 表示机器人j的轨迹， $h(·)$ 表示终端成本， $α_j(·)$ 表示操作模式的一组参数， $L(·)$ 是成本函数。第一个约束确保机器人被分配到有效目标或在期望的终端状态 $(x^j(t{^i_f}))$ 结束，而第二个约束确保轨迹遵守机器人和输入的运动和动态约束 $(u^j(·)))$ 约束。第三个约束确保最佳轨迹从实际初始状态开始，同时确保安全性和其他依赖于状态的约束。由于成本函数在有限时间范围内实时优化，通常使用机器人的当前状态作为初始条件重新计算，（7）可以被视为模型预测控制（MPC）[25]，[ 84] - [87]。在离散化状态域的不确定性下进行多智能体规划的另一种方法是采用分散的部分可观察马尔可夫决策过程[88]，[89]。

多机器人路径规划问题（7）中的最优性可以是关于任何数量的不同目标，包括集成控制效果，最大单机器人行进距离，最后到达时间和总距离或时间[90]。虽然求解精确的最优解是NP难点，但是可以使用精心选择的启发式方法有效地计算近似次优解[90]。必须确保生成的路径在运动学上或动态上可行，以便机器人遵循[91]，[92]。直接最优控制方法[25]，[85] - [87]将动力学转化为连续时间步长状态之间的等式约束以进行优化（例如，顺序凸规划（SCP）中动力学的迭代线性化[25]，[87] ]）。或者，可以找到每个机器人达到其目标的几何路径，然后使用这些路径作为轨迹优化步骤的输入，以使路径动态可行[92]。

轨迹设计和运动规划的另一个目标是为机器人代理设计控制法则。获得控制输入值的一种直接方式是解决MPC设置（7）中的轨迹生成问题并频繁地应用新的最佳控制输入值。但是这个过程在计算上可能很昂贵，稳定性保证也很具挑战性。或者，通过将从（7）获得的每个机器人的优化状态轨迹视为跟踪控制器的期望轨迹，可以将控制设计与最佳轨迹设计分开[25]，[28]，[87]，[93] ]，[94]。这种方法的好处是可以在传统的输入跟踪或模型参考设置中设置控制设计问题，并保证闭环稳定性。它特别适用于机器人系统，例如空中机器人，其物理模型很复杂，但从控制设计的角度来看是很好理解的。或者，在没有虚拟领导者的情况下设计的控制法则通常由表示多个目标的一系列术语组成：轨迹跟踪，与邻居的协调以及碰撞避免。如上所述，可以使用机器人的物理模型容易地导出轨迹跟随法则。协调和避免碰撞的条款要求在底层中与其他代理进行感知和通信。已经推导出能够适应时变通信拓扑的控制器，并且已经在使用改进的时间坐标的四旋翼[95]，使用局部势函数[96]的Dubin，以及航天器[97]上得到了验证。

当运动需求源于群需要执行的特定任务或需要处理紧急事件时，轨迹生成偶尔需要分层的“基于模型”的方法。例如，合作建筑[98]，[99]需要形成类似的运动以及用于稳定和操纵物体的专门的低水平运动。在这种情况下，可以解决基于物理的操纵模型以找到机器人的相对运动计划，而可以使用任何众所周知的路径规划算法来构建全局路径计划[98]。

专用控制器必须设计成允许在节能地层中飞行的空中机器人处理单个飞机中的执行器故障并使其能够保持其形成[100]。这些控制器受益于空气动力学模型，有助于估计相邻飞机对给定飞机可控性的影响。正如第II-B节所指出的，空中群体与地面机器人的不同之处在于，由于一辆车辆撞击其邻居所引起的流动，各个飞机在空气动力学上耦合。该团队还可以生成考虑到这些空气动力学效应的轨迹，并计划最小化干扰的轨迹[101]。或者，团队可以重建尾流剖面，如[102]所示，尽管它要求飞机执行跨轨道运动以确保估算器的稳定性。

考虑超越碰撞避免和动态可行性的限制因素，无人机的一个关键因素是电池寿命有限。为了延长任务寿命，地面车辆的合作团队可以用作移动充电站[103]。然后，无人机计划路径以确保他们能够在保持动力的同时完成任务。

B. Simultaneous Planning With Distributed Assignment

在同类机器人群中，哪个代理完成给定任务并不重要。可以利用这一事实，以集中或分散的方式为100名代理人的团队同时进行任务分配和轨迹规划[80]。与集中式解决方案相比，这种分散式公式不是最理想的，但它仍然是完整的。例如，同时最优分配和轨迹规划计算形状重构控制的最佳终点约束（7）[25]，[87]。

任务分配的特殊情况是合作追求，其中多个追求者寻求单个目标。 [104]确定了在有界域中成功追求的追求策略和条件。成功追求的条件将追捕者和逃避者的相对速度，追捕者的转弯半径（假设任意敏捷的逃避者）和追捕者的总数联系起来。在导弹拦截的背景下，已经研究了更现实的，基于物理的情景，其中使用多个防御导弹拦截一个或多个输入（目标）导弹，假设这些导弹使用标准的最佳制导和规避法。估计目标导弹的状态和制导规律是一项重大挑战，而且估计状态所涉及的时间延迟会对追击产生严重的不利影响[105]。在[106]中，显示目标状态的合作估计（与仅使用其自身估计的每个导弹相比）显着提高了成功的可能性。导弹之间的信息共享也可用于直接调整其导航定律，如[107]所示，以实现对目标的同步命中。

与合作追求相关的场景是跟踪单个目标的多个UAV。从轨迹生成的观点来看，有意义的是考虑这样的场景，其中环境中填充有禁止区域并且具有可能偶尔遮挡追踪者对目标的视图的地形特征，例如典型的城市社区。为了便于产生最小化遮挡的轨迹，有利的是开发用于跟踪目标的传感器的适当模型，例如万向相机。然后可以将跟踪系统的约束添加到每个无人机的动态限制中，以为完整的无人机团队生成制导法则[108]。

最简单的任务分配问题是以下静态、对称问题：给定一组n个代理，n个bins和一个奖励矩阵 $P∈R^{n×n}$ （或等价地，成本矩阵 $C∈R^{n×n}$ ），其中 $P_{i,j}$ （相应的 $C_{i,j}$ ）表示代理 $i$ 从分配给bin $j$ 和 $P_i$ 得到的奖励（分别产生的成本）， $j= - ∞$ （分别为 $C_{i,j} =∞$ ）表示不可行的分配，确定映射关系 $A：i→j = A(i)$ ，它为每个代理分配一个唯一的区间，同时最大化集体奖励 $\sum\nolimits_{i}{{{P}_{i,{{A}_{(i)}}}}}$ （相应地，最小化等效的集体成本）。用于解决目标分配的并行或分布式算法包括分布式拍卖算法的许多变体[16]，[25]，[109] - [111]和分散的分层策略[112]，它们接近Kuhn’s centralized Hungarian
method 的真实最优性。作为拍卖算法的计算复杂性的说明，分布式算法从[16]到收敛所需的计算次数是 $O(Δn^2)$ ，其中 $Δ$ 是参与拍卖的代理网络的通信图的直径。。
在这里插入图片描述
在算法1中示出了基本拍卖算法。该算法是集中的，并且需要中央寄存器，其中维护关于出价和分配的信息。相反，分布式算法分配计算以及代理之间的通信。例如，[25]中的算法根据特定阶段可用的代理数量调整目标数量。这是通过竞标而不是类似共识的过程来实现的，这对于具有可能会自发退出的代理的大型群体非常有用。这种分布式目标分配可以同时解决，以提供实时最优轨迹生成的目标状态，从而有效地解决（7）[25]，[80]，[113]。

等效几何问题涉及将物理卷划分为多个部分，然后将这些部分分配给卷内的每个代理。众所周知的结果是最佳分区对应于使用合适的度量函数生成Voronoi单元[114]。这种方法在[114]中引入，用于传感器覆盖，并在[115]和[116]中概括，以涵盖学习（任务分配）和分散信息共享。

当通过齐次马尔可夫矩阵在概率框架中建模区间之间的转换时，可以获得分配作为最优传输问题的解决方案[117]。在[23]中已经提出了一种改进的方法，其使用时间 - 非齐次马尔可夫链，其允许包含反馈项，从而解决了从bin-to-bin的群体形状控制和随机目标分配。

C. Collision Avoidance and Collision-Free Motions

避免碰撞的问题在群体中变得特别具有挑战性，因为机器人遇到的障碍包括其群体的其他成员，并且避免碰撞必须考虑使群体的性能最大化的需要（例如，避免增加完成群体任务分配的时间）。用于避免碰撞的最直观的技术是速度调整[118]并且在不改变最佳控制框架（7）中的分配的情况下顺序地重新计划轨迹[87]。特别是，混合整数线性规划已成功推导出最佳的无碰撞运动，并应用于移动机器人，航天器和无人机[85]，[86]，[119]。最近，SCP(sequential convex programming)已被用于通过逐步绘制超平面来近似无碰撞区域，并已在模拟和实验中证明了[25]，[87]。在[120]中，通过沿着基于图的原始路径扩展凸球面区域，放松了基于超平面的无碰撞区域凸化的保守性。重新分配轨迹的另一种方法是重新分配目标，如[80]所示。重新分配纯粹是局部的，不需要首先影响分配所用的标准。

在群体中避免碰撞的更直接方法涉及使用人工势场[121] - [124]或屏障函数[125]，[126]。必须注意的是，Reynolds模型（1）还包括势函数的梯度。势力场在计算上易于实现以避免冲突，但不一定用于路径规划。此外，人工势场直接耦合各个机器人的动态，如果没有正确选择通信拓扑，这会对群的稳定性产生不利影响。连通性不足以保证有向图的稳定性（见第II-F节）。类似于势力场的方法涉及使用Lyapunov函数的梯度，其隐含地考虑了碰撞的可能性。这种控制律已经使用差分博弈方法[127]，[128]构建，同时解决了贪婪的优化问题。困难在于在存在非线性和本地通信的情况下解决最优控制问题。

D. Aerial Manipulation

空中机器人群具有以两种方式运输物体的能力，其中每个单独的机器人能够携带物体或者需要多个机器人来抬起单个物体。在任一情况下，物体可以通过连接到机器人[129] - [133]的电缆悬挂，或者可以刚性地连接到机器人[134] - [138]。刚性附着在物体上的无人机使用各种夹具，包括基于摩擦的[134]，基于穿透的[135]或磁性[137]。

当每个单独的机器人能够抓住物体时，拥有一群机器人允许更多的物体更快地移动。这可以用于任务，例如包裹递送[133]，[138]和结构[134]。

当需要多个机器人来移动单个物体时，可以使用小型机器人团队来协同运输单个物体[129] - [132]，[135] - [137]。此任务需要机器人之间进行某种类型的通信。这通常以明确的方式完成，但也可以通过感测作用在被运输物体上的机器人的内力来隐式地完成[132]。该群也试图最大限度地减少这些内力，因为这些代表了能源的浪费[136]。

E. External Control of Aerial Swarms

群体的外部控制是指以下两种情况之一：

1）群由外部用户，特别是人类操作员实时分配目标。
2）群体的一些或所有成员与对手或敌对代理交互，而对手或敌对代理又在人类用户的控制范围内。

在最简单的层面上，人类遥控操作员向群体发送动作命令。为了减少操作员的认知负担，希望最小化操作员必须提供和管理的输入的数量。为此，可以通过引导单个虚拟领导者并相对于该虚拟领导者控制群体的大小和形状来控制群体的整体运动[139]，[140]。使用虚拟领导者的另一种方法是使用在[141]和[142]中开发和演示的虚拟刚体框架。人类也可以使用群体能够理解的语言发出命令。这在概念上与自主群的通常设置没有什么不同，因为它涉及人类基本上在算法循环之外的行为。有人认为，与操纵固定的领导者相比，人类能够使用一组动态的领导者更好地引导群体[143]。还有证据表明，人类操作员可以调整他们对（虚拟）领导者的处理，以比内置的标准flocking rules更好地引导大群体通过富含障碍的环境[144]。下一级的复杂性涉及人类使用自然语言发出命令，同时仍然停留在控制群体的算法循环之外。在这里，挑战是从运营商的措辞中推断出一个特定的命令[145]。最高级别的复杂程度是使用计算机来推断人类的意图。在这里，人类是算法循环的一部分：控制群体的算法主动寻求人类关于其性能的输入。 Kim和Coleman [146]提出了一个框架，将这个想法扩展到一个机器人代理（包括无人机）团队。

对抗性控制的概念解决了没有直接方法进入群体的命令和控制算法的情况。对抗性控制的一个例子是以海豚[21]，牧羊犬[147] - [152]为模型的家庭遏制和放牧策略以及用于放牧一群鸟类的猎物[153]。Paranjape等人 [153]研究了一种机器人无人机的使用，这种机器人可能是一只类似于猎鹰的鸟类，它们远离机场和太阳能农场等敏感区域。通过与位于羊群边界的鸟类交配，与虫群相互作用。羊群算法利用群体固有的趋势来保持粘性结构，以减少实现放牧所需的机器人代理的数量。鸟群在群体边界上的速度扰动通过群体扩散并导致群体改变其前进和速度。在[153]中已经证明，单个机器人代理就足以让一群鸟群成群，而相关的工作[150]表明，通过使用多个无人机可以大大提高放牧的质量。

在对抗性控制的背景下感兴趣的一个特定问题是推断群体运动的基础模型。如果已知模型，以及群体对对手的响应，则不仅可以设计转移或控制群的最优策略，而且还可以保证这些策略的性能。在[153]中，实验数据被用于识别基于[154]和[155]的模型，用于一群鸟对位于一定范围内的无人机的响应。 [153]中采用的方法适用于对扰动的响应基于静态的确定性定律的群体。当响应采取更具战略性，动态性的形式时，有必要使用明确解释这种行为的基于学习的技术[156]，[157]。基于滤波器的技术位于两组上述方法的中间位置。考虑导弹的情况，其中已知目标导弹始终遵循一组明确定义的导航定律。确切的定律及其参数未知。如[158]所示，使用一组过滤器来确定最可能的模型，可以有效地解决这些问题。

IV. AERIAL DISTRIBUTED SENSING, MONITORING, AND COOPERATIVE MAPPING

分布式传感是航空机器人群的主要应用领域之一。成群的空中机器人能够同时从不相交的位置收集信息。由于系统中存在一些冗余，它们对于传感和致动故障也更加稳健。分布式传感任务可以有三个主要焦点：目标，空间和地图。任何焦点，机器人都需要有关于感兴趣区域及其中的对象的信息，以安全，成功地完成任务。但是，每个子任务的目标是不同的。首先，目标是搜索和/或跟踪感兴趣区域内的目标。在第二种情况下，目标是最大化传感器覆盖范围的一些测量或确保最终覆盖所有区域，可能在所需频率。最后，目标是构建未知或部分已知环境的地图。

A. Target Search and Tracking

目标搜索和跟踪是规范的分布式传感任务。从空中机器人的角度来看，已经研究了该问题的几个关键变体。变体之间的划分分为两大类：静态目标和动态目标以及单目与多目标。在多目标情况下，有两个已知与未知数量的目标子类。请注意，后一个问题可能要困难得多：当目标数量已知时，检测（或缺少）不仅会向团队提供有关传感器视野内的信息，还有外部信息。的视野。例如，如果团队知道有八个目标并且其中四个目前可见，那么他们知道剩下四个目标。在目标数量未知的情况下，看到四个目标只告诉团队至少有四个目标。

1）单一动态目标估计：一组机器人能够同时查看感兴趣区域的不相交区域或同时从不同视角查看同一区域。前者允许团队更快地获得全球信息，而后者允许团队更快地降低不确定性并对传感器错误具有鲁棒性。这个问题可以写成分布式估计任务[159]，[160]。在一般的离散时间表示中，目标的动态由下式给出
在这里插入图片描述
其中fk是目标状态xk的非线性时变函数，独立且相同分布的（i.i.d.）过程噪声wk，以及离散化时间步长Δ。 N个异构传感代理的网络同时跟踪（8）。令yi k表示第i个代理在第k个时刻所进行的测量

其中k是statexk和i.i.d的非线性时变函数。测量噪声vi k。然后，代理能够使用[159]中提出的分布式贝叶斯过滤来跟踪目标的状态（参见算法2）。类似的协作估计算法也可以用于协同地映射目标区域以获得UAV的姿态估计（参见章节IV-C）。

这种类型的问题可以在各种环境中找到，包括使用无人机团队跟踪无线电标记的动物[161]或寻找，跟踪和捕获敌对无人机[162]。此外，这些无人机团队可以与地面机器人和/或固定传感器团队合作[161]。当不仅目标未知状态，而且每个无人机的状态[163]时，目标跟踪问题更加复杂。

2）已知数的多个目标的估计：多目标跟踪的最简单形式是当目标的数量已知并且目标是静止的时[161]。然而，跟踪动态目标一直是研究界更感兴趣的，因为它代表了实际应用中更大的份额。小型无人机团队的一个常见情况是目标数量大于机器人数量。在这种情况下，团队必须决定是否专注于跟踪最大数量的目标，并通过高质量的跟踪来跟踪单个目标。这种折衷通常导致关于机器人高度的决定，其中高仰角导致大的传感器视场但是更高的传感器噪声[113]，[164]。此外，同时规划大型团队的轨迹可能是计算上昂贵且缓慢的。通常使用近似算法[113]，[164]或任何时间规划算法[165]来缓解这个问题。为了合作计划，机器人必须能够在整个团队中共享信息。在机器人具有有限的通信范围，视线可见性以及在杂乱环境中操作的情况下，可能难以在整个团队中保持连接[166]。

3）未知数的多个目标：如上所述，当目标数量未知时，搜索问题变得更加困难，团队必须始终探索整个环境以完成任务。用于解决此任务的标准方法是利用四叉树表示来自适应地改进可能包含目标的区域中的环境[167] - [169]。这三个作品之间的主要区别在于[167]，[168]假设每个机器人看到一个且只有一个单元，它隐含地将机器人的高度连接到四叉树分辨率（和传感质量），而[169]允许机器人看到多个细胞并利用随机有限集理论[170]来估计目标集。

跟踪未知数量的动态目标更加困难，因为除非能够一次看到整个环境，否则团队无法确定他们是否已经看到了每个目标。李等人。 [171]考虑目标数量未知但不变的情况。这一重点是创建一个有效的，基于摄像头的跟踪，以避免在大型无人机群体中实时避免碰撞。在单一团队情况下，这允许系统对通信中的延迟或故障具有鲁棒性，并且在同一空域中存在多个非通信团队的情况下也是有用的。

也许最具挑战性的目标搜索和跟踪问题是当目标的数量未知并且随时间动态变化时，例如，由于目标进入和离开感兴趣的区域。在这种情况下最常用的工具是PHD过滤器[170]，它允许团队同时估计目标的数量和每个目标的动态状态。一小组固定翼无人机使用基于信息的技术[172]和大型多旋翼无人机团队使用基于Voronoi的控制器跟踪地面机器人[173]。

B. Surveillance and Monitoring

顾名思义，目标跟踪采用以目标为中心的方法。另一种方法是采用以区域为中心的方法，机器人团队专注于覆盖感兴趣的区域。这通常被称为监视。如果必须以某个期望或最大频率访问所有感兴趣的区域，则该问题称为持久监视。监测和监测一直是大量文献的主题，包括许多特定于空中群体的方法。

监视或监视任务是元组（R，γ，Q），其中R是机器人模型，γ是机器人遵循的曲线，而Q是感兴趣的点集[174]。令φ（q，t）为点q和时间t处的场，其通常表示自某个机器人最后一次看到点q以来所经过的时间或一些关于环境的不确定性的局部测量值。然后，目标是找到一组最小化成本的轨迹γ
在这里插入图片描述
通常，场φ（q，t）的值随时间增加并且仅在机器人观察时减小。由于在该问题中考虑了有限的时间范围，解决机器人轨迹在计算上是昂贵的，尤其是在多无人机情况下。

1）持续监测：多无人机持续监测的早期工作采用启发式方法将传统的单UAV解决方案扩展到多个UAV [175]，[176]。其他工作重点是通过参数化B实现无人机的实时计算。 -spline曲线定义一组可行轨迹[177]。作者后来扩展了这项工作，以解释传感器视野和固定翼无人机的转弯半径通常具有可比较的长度尺度，这使得很难看到环境的所有部分[178]。

考虑监控问题的另一种方法是作为车辆路径问题，其中无人机必须访问所需的一组位置[179]。

2）监督：持续监测和监测之间的主要区别在于，在监视中没有硬性要求以一定频率访问每个区域。相反，目标往往是最大化某些覆盖范围或信息[180]，[181]。团队中的机器人通过多跳网络进行通信，并以分布式方式解决监视任务。

除了最大化覆盖范围或信息之外，群组还可以负责监视环境中的时空场。这种时空领域经常出现在环境监测和精确农业任务中，其中田地可能是水温或养分浓度。最近的一种方法是快速探索随机循环[182]，这种方法更适合监测和监测任务，其中必须一致地重新审视区域，而不是其表亲，RRT [82]，其侧重于一次性轨迹。监测时空领域是一项具有挑战性的任务，通常可以通过使用异构团队来实现[183]。

C. Cooperative Aerial Mapping

与监视和监视任务相反，其目标是仅观察环境，映射是获取环境的全局一致表示的过程。这种表示可以是稀疏的[184]，半分[185]或完全密集[186]。虽然密集表示可以直接用于自主导航[186]或地理参考，但稀疏表示通常仅用于状态估计[187]或机器人代理的协作控制。由于环境通常仅部分已知或甚至完全未知，因此映射任务通常与定位（姿势估计）问题相关联，这使得它们成为经典的同时定位和映射（SLAM）问题。不可否认，SLAM及其对分布式多机器人SLAM的扩展是广泛研究的领域。因此，使用多个分布式传感器（例如，由不同空中机器人携带的多个摄像机）解决SLAM与第IV-A节和算法2中讨论的目标跟踪和估计有关。在本文中，我们将讨论仅限于那些最相关的到空中机器人群。

协作绘图实验的技术贡献在模拟或实验室环境中进行时受到限制。然而，由于在现实环境中部署多个空中机器人的高技术障碍，迄今为止已经在实际设置中测试了非常少量的协作映射系统。即使对于成功的应用，规模也仅限于少数（少于10个）机器人。关于这些技术挑战的进一步讨论见第五节。

在[188]中回顾了多机器人映射的问题和当前解决方案。在下文中，我们基于它们的感知模态和环境表示将映射解决方案分类为视觉稀疏，视觉密集或基于激光的解决方案。

1）视觉稀疏映射：视觉稀疏表示由点和线组成，从图像中提取和跟踪。通常使用描述符来扩充点以用于特征匹配目的。通过匹配三维点和线，机器人可以估计它们的相对姿势并融合它们的局部地图，以保持几何一致性，并在大规模环境中实现有效合作[189]。机器人还可以保持地图中每个点的位置不确定性，以便处理动态对象[190]。在[184]中引入了基于视觉的协作SLAM用于空中机器人的早期工作，其中使用集中地面站从多个空中机器人收集数据。该数据用于执行机器人定位的稀疏特征匹配，以及检测不同机器人的传感器视野中的重叠。利用类似的映射框架的最新结果在[191]和[192]中给出。

由于板载IMU的可用性，视觉惯性SLAM框架通常比其他机器人平台更适合于空中机器人系统。最先进的视觉惯性SLAM框架通常能够处理多会话地图[193]，[194]，使其成为将多个机器人获取的地图合并为全局一致表示的理想选择。这些框架的全球定位能力还能够在同一稀疏视觉地图中实现多个空中机器人的无漂移姿态估计。

现实世界的群体系统通常对通信带宽有严格的限制。为此，研究人员一直致力于最小化或限制执行分散映射所需的数据量[195]，[196]。具体来说，Cieslewski等。 [196]提出了一种基于分散式场所识别和优化算法的分散式SLAM框架。这些算法相对于团队的规模线性扩展，并构建高度紧凑的环境表示，从而导致非常低的带宽使用。这使机器人能够在绝对定位不可用的环境中以及没有中央基站的环境中导航。减少带宽使用的另一种方法是机器人利用基于对象的模型而不是交换原始传感器测量值（例如，点云或RGB-D数据）[197]。

2）Visual DenseMapping：密集映射系统使用密集的点或平面集合来描述环境。密集表示对于杂乱环境中的自主导航非常强大，但它们在处理能力和数据存储方面也提出了更高的要求。为每个图像提供深度和颜色信息的RGB-D相机通常用于协作视觉密集映射。由于实时处理密集地图所需的高计算量，具有有限计算能力的机器人可以选择将本地地图发送到云服务器以执行地图合并和批量优化[198]，[199]。最近的工作展示了自动飞行和协同密集映射的实时姿态估计，使用配备RGB-D摄像机的两个四旋翼飞行器进行机载计算[200]，以及四旋翼和地面机器人的异构团队[201]。

3）基于激光雷达的映射：激光雷达是另一种常用于绘图应用的传感器。在[202]中，四旋翼飞行器和地面机器人的小型异构团队用于协作映射，其中可以利用每个代理的致动优势来确保探索整个空间。扫描匹配用于合并两个机器人的地图。在[203]中提出了利用激光雷达扫描信息的期望最大化（EM）算法，用于有效识别多机器人环闭合中的内点。这显着提高了长期导航的轨迹精度。

V. TECHNOLOGY FOR SWARMING

在本节中，我们将讨论操作一大堆空中机器人的实用性，重点关注主要的硬件和软件组件。空中机器人群已经在模拟中进行了广泛的研究，但直到最近才在真实场景中用于全尺寸实验测试。这是由于各种因素的汇合。板载感测和计算已经显着改善到可以进行实时状态估计的程度。与此同时，无人机硬件近年来随着商用无人机市场的爆炸性增长而显着改善。仅在美国，商业市场从2012年的4,000万美元增长到2017年的近10亿美元[204]，预计到2021年全球无人机市场将超过12亿美元[205]。这种增长降低了硬件成本，足以使大规模群体成为可能。

A.Platforms

空中机器人群硬件的一些首要工作集中在提供不需要任何外部基础设施的开源硬件和软件堆栈[206]。这是一种教育工具，用于教育年轻学者使用硬件并给他们一个测试平台来实现他们的想法，但是这个群只有少量的机器人。其他室内群使用运动捕捉系统进行定位[207]，[208]。最近，该领域一直致力于扩大群体的规模，其中一个最大的室内群由49个CrazyFlie四旋翼组成，它们同时在运动捕捉系统中飞行[209]。手掌大小的CrazyFlie平台没有足够的机载计算或感知状态估计，但它是大规模室内群的理想选择。

其他研究人员专注于将群体放在实验室之外，包括一群12个四旋翼飞行器在室内和室外工作，无需任何外部基础设施[210]和10个空中机器人的室外编队飞行[211]。机器人使用视觉惯性测距法（VIO）进行状态估计，这使他们能够在充满挑战的室外条件下航行，包括夜间和风。最近还展示了一个更大的50个固定翼无人机室外群[212]，其目标是成为研究对抗群系统的试验平台。请注意，由Intel1或EHang2执行的流行无人机显示使用具有预定义轨迹的基于GPS的导航。

B. Vehicle Power Management

对于任何群体来说，关键挑战之一是电源管理。例如，在[212]中，在所有车辆发射和安全着陆所花费的60分钟中，群中的全部50个机器人同时在空中飞行仅10分钟。与固定翼无人机不同，垂直起降无人机，例如多旋翼无人机，能够同时起飞和着陆，但飞行时间明显缩短。

充电或加油机器人可以通过静电充电垫[213]，[214]或移动充电垫（即地面车辆顶部）完成[103]。超出燃料或电池水平的健康监测也很重要。例如，团队的操作员也可能对传感器，致动器和其他部件的故障，退化或故障感兴趣[215]。

C. Pose and State Estimation

由于大多数空中机器人配置固有的不稳定动态，强大的状态估计对于几乎所有的空中机器人应用都是必不可少的。这是从模拟或实验室设置（使用外部动作捕捉系统）过渡到实际部署的基本构建模块。在下文中，我们将状态估计解决方案分类为基于外部传感器或独立的板载传感器。

1）使用外部传感器进行姿态估计：外部传感选项，如实时动态（RTK）GPS，光学运动捕捉系统和超宽带（UWB）解决方案，已经在空中机器人上实现了令人印象深刻的合作任务。众所周知，提供绝对经度和纬度信息的GPS适用于大规模户外环境。 RTK GPS在附加基站的帮助下进一步达到厘米级精度。这些基于GPS的解决方案为英特尔，EHang等公司提供了各种商用航空群展。在室内GPS拒绝环境中，光学运动捕捉系统利用多个红外摄像机实现毫米级位置跟踪[216]，[217]。或者，基于UWB的解决方案为大规模室内空中群提供了更便宜，更灵活但不太准确的状态估计[218]。任何这些系统的主要缺点是它们需要安装固定的基础设施，限制群在固定的空域中运行。

2）使用板载传感器进行姿态估计：为了使群体能够在任何环境中运行，必须消除对外部传感器进行状态估计的需要。相反，机器人必须依靠车载传感器，例如摄像机，激光雷达和惯性测量单元（IMU）。摄像机和激光雷达是外部传感器，依靠外部功能提供增量姿态估计[219]。另一方面，IMU是内部传感器，提供高频速度和姿态反馈以实现实时控制。该领域最近的一项重大突破是使用VIO [210]进行实时状态估计和反馈控制。车载相机传感器也可用于定位群的其他成员[220] - [225]。这可用于启用分布式编队控制，而无需代理之间的任何显式通信。然而，第IV-C节中讨论的协作估计和多代理SLAM技术也可用于提供每个空中机器人的状态和姿态估计。

D. Communication Infrastructure

通信基础设施是实际部署空中群系统的另一个重要组成部分，因为它可以交换状态信息，运动计划和高级群体行为。研究人员经常选择短距离但低功耗的通信协议，例如蓝牙，UWB或标准Wi-Fi，以构建通信基础设施。 [226]中介绍了这些协议的详细讨论。但是，由于带宽有限，这些协议可能无法满足大规模群的通信要求。研究人员正在研究可能的替代方案，这些替代方案具有低延迟，高可靠性和高带宽，例如URLLC [227]。

由于物理通信基础设施组件的选择有限，当前的群体实现仅限于使用少量通信拓扑中的一种。在大多数情况下，使用具有一个地面站和多个代理的集中拓扑[209]，[216]，[217]。分散的通信拓扑仍主要用于理论研究领域[57]，[59]。文献[228]，[229]中给出了非常有限的实验结果。

VI. CONCLUSION AND FUTURE WORK

在不久的将来，我们的空域将由成群的空中机器人组成，执行复杂的任务，这对单个车辆来说是不可能的。本文回顾了可以提供实现这一未来所必需的基本算法，分析，感知和技术构建块的工作。本调查论文讨论的研究问题涉及群体同步控制与安全轨迹优化和分配的分层整合，以及循环中感知的协同估计和控制，为读者提供了对航空群机器人的广泛视角。

此外，我们强调计算效率，稳定性和稳健性以及最佳系统性能之间的三向权衡的重要性。为了真正解决这种权衡问题，我们认为必须超越目前在自主无人机和普通群体机器人中使用的方法，以实现空中群系统的长期自治。

进一步研究的一个重要领域是开发学习和决策架构，这将使成群的空中机器人具有高度的自主性和灵活性。我们认为这种架构最终将降低风险和成本以及长期自治操作。为了成功，任何这样的架构必须提供用于推理关于不确定性和建模误差的广泛性质的框架，范围从已知的未知数（例如，传感器和致动器噪声）到未知的未知数（例如，风扰动，硬件故障）。所有这些都会影响算法的安全性和鲁棒性以及群体行为的系统级功能。此外，群内的计算和通信必须足够快以确保在系统内的各种时间尺度和带宽下的模型变化和任务规范下的稳定性。

对于具有高度不确定环境模型的空中群系统，可以通过稳定性，收敛性和鲁棒性来数学地表征飞行中的高级规划，决策和分类以及低级群控制和估计系统的作用。。群体决策，控制和估计的各个方面应该具有不同的时间尺度和层次级别，以利用可扩展性和计算效率。这种稳定性表征的一个例子是将需要在线更新的所需模型和参数以及它们的更新或学习速率与各种系统特征的功能相关联的数学定理，例如采样率，群控制法更新率，带宽等。动态和通信，动态系统的维度和环境不确定性的属性。这也应该提供一个指导，以衡量特定群体算法或系统级架构在实现空中群体自治方面的效率和鲁棒性。例如，分布式最优规划（例如，[25]，[87]）要求机器人与其邻居共享其最佳解决方案，直到某个时间范围。为此问题添加同时目标或任务分配进一步增加了所传递信息的所需大小。将这些方法与在线自适应方法相结合将是有益的，该方法可以预测邻居的未来行为并且反过来将有效地减少通信要求。关键思想是再次将形式数学分析与前面讨论的分层和多模态分解相结合。另一个重要领域是建立严格的故障检测，隔离和恢复方法，以处理子系统级别，各个系统级别和群级别发生的各种潜在故障。

由于群体在更大程度上用于攻击性或敏捷的自主任务，因此有必要创建对群体施加某种形式的对抗性控制的手段。这种反群体技术也可用于民用目的，例如维持法律和秩序以及使鸟类和动物远离环境危害，例如洪水或野火。第III-E节中报告的工作是这些技术的良好起点。关键的开放性问题包括为快速估计群体的位置和意图而需要执行的机动类型;评估空中群体的内部动态;识别给定群体中的任务和角色分配;并确定主要领导者和感知节点。下一级问题涉及识别从对抗群体中击败这些类型的探测动作的方法，这是游戏通常的极小极大范式的直接类比。值得注意的是，社交网络的相似性表明，采用该文献中的工具可以为反群体开发提供早期突破。然而，即使通过社交网络和游戏理论采用完善的工具，两个层面的一个重要且重大的挑战是确定飞行器动力学在启用和击败探测操作中的作用。巧妙地执行一系列操作可以帮助识别并同样提供欺骗性的线索，即群体的意图，组织和能力。

总之，空中群体机器人中的许多开放性问题和研究问题涉及群体车辆动力学特性，不确定性的特性以及所采用的不同群体学习/控制方法之间的相互依赖性的表征。只有通过仔细的系统识别或集成的系统设计来理解这些相互依赖性，才能证明完全自主的空中群在复杂的现实环境中运行。

空中群体机器人研究综述