摘要

当地面通信基础设施故障时，无人机（UAV）为在灾区建立灵活可靠的应急网络带来了巨大潜力。然而，由于不可信的环境和开放接入的无人机网络，无人机在数据传输过程中可能会出现潜在的安全威胁。此外，无人机通常具有有限的电池和计算能力，使得它们在执行复杂的救援任务时无法负担沉重的安全配置操作。在本文中，我们开发了RescueChain，这是一种用于无人机辅助灾难救援的安全高效的信息共享方案。具体来说，我们首先实现了一个轻量级的基于区块链的框架，以在灾难情况下保护数据共享，并永久跟踪不正常的实体。设计了一种基于信誉的共识协议，以适应弱连接环境，提高共识效率并促进无人机的诚实行为。此外，我们通过利用地面车辆作为移动雾节点来卸载无人机繁重的数据处理和存储任务，引入了一种新颖的基于车雾计算的链下机制。为了优化激励车辆共享其空闲计算资源，我们还为高度动态网络中的无人机和地面车辆设计了一种基于双层强化学习的激励算法。仿真结果表明，与代表性的现有方法相比，RescueChain可以有效地加速共识过程，提高用户收益，减少交付延迟。

引言

自然灾害，如地震、山火、洪水，往往造成毁灭性的生命和财产损失。在灾区，可靠和有弹性的应急通信对于快速评估损失和有效的灾难救援至关重要。然而，由于地面网络基础设施（例如，Wi-Fi接入点和蜂窝基站）的破坏或效率低下[1]–[3]，基于无人机（UAV）的通信方法可能是迄今为止唯一可行的解决方案，因为其快速部署和灵活的移动性[4]–[7]。无人机不仅可以快速调度和部署，以建立空中应急通信基础设施，还可以帮助救灾网络中的信息传播（例如救援指挥、受灾地区地图和幸存者位置）[8]-[10]。

然而，支撑无人机辅助救灾网络（UDRN）的面对的基本挑战可不小。由于无人机需要对灾区的所有节点（包括恶意实体）开放，以最大限度地发挥挽救生命的潜力，因此网络可能容易受到对手实施的各种攻击（例如，欺骗攻击和DDoS攻击）[1]。无人机还可能被用来伪造、删除和替换传输的数据，甚至注入恶意软件和病毒来误导或干扰救援行动。此外，无人机的机载电池和计算能力通常有限，而在受影响区域（如人类检测和视频识别）的繁重计算任务往往超过无人机的本地处理能力[11]。因此，执行搜救行动所需的时间可能会过度延长，灾难救援的效率可能会降低[5]。因此，迫切需要在UDRN中设计一种具有高效计算和存储卸载的安全数据传输方案。

新兴的区块链具有在各种协作实体之间建立信任的众多潜力；通过提供带有时间戳数据和行为记录的去中心化哈希链接账本，区块链以可靠和分布式的方式防止欺诈[12]、[13]。参与者可以在具有不变性、透明度和可审计性的区块链基础上共享和检索所需数据。例如，在[14]中，提出了一种加密机制，以通过区块链启用的密钥分发来确保UAV ad-hoc网络的数据安全。在[15]中，基于区块链的去中心化机制被开发用于无人机辅助物联网网络中的安全数据传输。

现有的无人机区块链方法在很大程度上取决于安全关键操作基础设施的可用性（如共识管理和账本维护），可容忍无人机故障的全分布式方法更适合实际灾难场景。同时，基于区块链的UDRN的计算密集型数据处理和共识操作以及繁重的存储需求通常会占用无人机的大量受限计算和存储。现有工作主要集中于基于云或边缘的无人机计算和存储卸载方法[16]–[18]；然而，由于远程云的距离很长，边缘服务器在灾难情况下不足或不可用，无人机的严格服务质量（QoS）要求（例如，在到期前完成任务）可能无法满足当前基于云或边缘的卸载方法。因此，在灾难地区部署一个轻量级和健壮的区块链系统，同时有效地卸载无人机的繁重计算和存储任务，从而确保数据共享仍然是一个开放和至关重要的问题。

在本文中，我们开发了RescueChain，这是一种用于UDRN的新的安全且节能的数据共享方案。我们首先提出了一个轻量级、无基础设施的基于区块链的框架，以保护数据共享，并永久跟踪灾难站点中的不当行为实体和数据来源。然后，我们设计了一种基于信誉的倾向性共识协议，以在弱网络连接下高效且鲁棒地达成共识，同时鼓励无人机在网络中的合法行为。然后，通过利用地面车辆作为移动雾节点，提出了一种新的基于链外计算和存储机制的车辆雾计算（VFC），以协作地将无人机的数据处理和安全供应任务卸载到移动车辆。基于强化学习（RL），设计了一种智能激励机制，以进一步激励车辆共享其空闲计算资源，因为在实践中不容易获得准确的网络参数。本文的贡献有三个方面：

•框架：我们提出了RescueChain，它是低成本、无基础设施和健壮的。我们在UDRN中实现区块链方面做了两个改进：
1）在部分同步环境下，具有非挖掘记账、低通信复杂性和高鲁棒性的绿色共识协议；
2）基于VFC的链外数据存储和计算机制，以有效地将重型数据处理和存储任务从资源受限的无人机移动到附近的协同地面车辆。

•算法：由于UDRN中的网络连接稀疏，我们通过签名聚合和信誉评估，基于Tendermint为电池有限的无人机开发了一种节能和分区容忍的共识算法。此外，可以基于区块链中记录的节点行为来促进无人机的合法行为。为了促进车辆在VFC中的协作，我们还利用RL技术智能地导出快速变化环境中地面车辆和无人机的最佳资源共享和定价策略。

•验证：我们通过广泛的模拟评估RescueChain的有效性。与其他现有方案相比，我们的RescueChain可以为地面车辆和无人机获得更好的回报，减少数据传输延迟，提高卸载效率，并提高区块链中的共识效率。

其余工作安排如下。第二节审查了相关工作。第三节介绍了系统模型。第四节介绍了拟议的RescueChain方案。第五节介绍了绩效评估。

系统模型

在本节中，我们通过分别讨论网络模型、移动性模型、VFC模型、通信模型和威胁模型来介绍系统模型。

A 网络模型

考虑了一个典型的无人机辅助灾难救援网络（UDRN），该网络由大量无人机、地面车辆、地面站和许可区块链组成，如图1所示：
在这里插入图片描述
在给定的调查灾区，一组I={1，··，i，···，I}车辆将执行搜救任务，其中部分道路和基础设施受损。为了促进地面救援车辆之间的数据传输，派遣了一组J={1，··，j，···，J}无人机，通过形成灵活的空中子网络来建立紧急通信。每个无人机j∈J 配备了多个传感器（例如GPS、红外相机和温度计）来感知周围环境。一方面，为了节省无人机有限的电池能量，无人机收集的感官数据（例如，图像、音频和视频）可以通过空中到地面（A2G）链路传输到地面车辆进行处理（称为VFC），例如模式识别和幸存者检测。另一方面，无人机机群可以通过空中对空中（A2A）链路充当空中通信中继站，以增强网络连接。设Rj A2G和Rj A2A 分别表示UAV j的A2G和A2A通信范围的半径[25]。由于网络基础设施的破坏，部署了地面站等应急控制中心，通过调度无人机和车辆来协调空中和地面子网络。为了更好地适应受影响区域，地面站由具有强大通信和计算能力的紧急通信车辆（ECV）[26]托管。

区块链包含一个不断增长的哈希链区块序列，每个区块B有两个部分：区块体和区块头。块体由一组时间戳记录（即，感知数据、计算结果、救援命令和节点错误行为）组成，这些记录被压缩成Merkle树结构。为了减轻区块链的沉重存储负担，只有数据指针被记录在链上，而源数据被移动到链外数据存储库。块头包含块的元数据信息，例如父块和当前块的哈希、Merkle根、块高度、块创建者的签名和块验证器的签名。在RescueChain中，只有经过授权的参与者才能以真实身份在认证机构（CA）注册后加入许可的区块链网络。区块链中的授权节点集合表示为M={1，··，m，···，M}。区块链中考虑以下实体角色：
•完整节点存储所有块的副本，是验证器的候选节点（即共识节点）。
•轻量级节点只存储块头，不参与共识过程。他们可以从附近的完整节点接收区块链服务。
•验证器是完整节点的一部分，通过运行共识协议负责区块链管理。

在网络中，每个ECV充当一个完整节点。此外，每个授权的无人机可以根据其计算和存储能力选择成为全节点或轻量级节点。

B 移动性模型

为了有效的飞行轨迹设计，将总时间周期T离散为N个时隙，间隔Δ=T/N。由于每个时隙都足够小，无人机j在第N个时隙的位置可以大致固定。对于UAV j，其在第n个时隙的水平位置表示为lj[tn]=（xj[tn]，yj[tn]），其悬停高度假定为恒定，即Hj，以避免频繁上升和下降[27]。让Emin j表示UAV j延长电池寿命的最小能量储备。那么，UAV j在第n个时隙的剩余电池能量应满足Emin j≤ Ej[吨]≤ Cj，其中Cj是UAVj的电池能量容量。当UAVj在固定高度飞行时，其飞行功率Pflyj[tn]与其在第n个时隙[28]的速度vj[tn]呈正相关，即Pflyj[tn]=1 2wj（vj[t]）2。这里，wj是包含其有效载荷的UAVj重量。无人机j的飞行速度vj[tn]为：
在这里插入图片描述
其中vmax j是UAV j的最大速度。

对于地面车辆，流体交通模型[29]捕捉了车辆平均速度vGV和交通密度α之间的关系，表示为：
在这里插入图片描述
其中vmin GV和vmax GV分别表示最小和最大车辆速度。αmax是最大交通密度。在第n个时隙，进入无人机j的通信范围的地面车辆数量可以获得为φj[tn]=αvGVΔ。设Oj[tn]为在第n个时隙离开无人机j通信范围的地面车辆的比率。根据[30]，第n个时隙无人机j覆盖范围内的车辆数量如下：
在这里插入图片描述

C 车辆雾计算模型

无人机有限的电池和计算资源可能无法负担执行计算密集型和延迟关键型救援任务。因此，救援任务的执行时间可能会延长，无人机的充电间隔可能会缩短。在VFC范式中，无人机的繁重计算任务和数据存储可以通过协作共享其闲置资源而有效地卸载到其覆盖范围内的地面车辆。设Ij[tn]={1，··，i，···，Ij[tn]}是第n个时隙无人机j覆盖范围内的协作车辆集合。将无人机j的每项任务卸载到车辆i上∈Ij[tn]可以表示为4元组：
在这里插入图片描述
其中，Dj，k（以位为单位）表示任务的数据大小，Θi，j，k是处理一位所需的CPU周期，T max j，k表示任务的生存时间（TTL），δj，k∈ [0，1]表示任务处理的紧急程度，Kj是要卸载的无人机j的任务总数。这里，δj，k越高，意味着紧急程度越高。

在VFC中，当任务数据的所有Dj，k比特被传输到地面车辆i时∈Ij[tn]通过A2G链路，立即在车辆上执行数据处理过程，然后通过地面到空中（G2A）链路将处理结果的θj、kDj、k位发送回UAV j。这里，θj，k∈ （0，1）表示输出/输入比。设fi，j，k为车辆i在执行任务Γj，k时所贡献的计算资源量（AoCR），以CPU周期/秒度量。基于工作[31]，车辆i中任务Γj，k的执行时间可以建模为tvfc i，j，k=Θi，j、kDj、k fi、j，k。此外，车辆i在执行任务Γj，k时的能耗如下：
在这里插入图片描述
其中，κi是有效开关电容[28]。

D 通讯模型

对于A2G/G2A通信，视线（LoS）链路被认为是主要的[31]，无人机j和地面车辆i之间的信道增益可以通过自由空间路径损耗模型[27]描述为φi，j[tn]=φ0（di，j[tn]）−μ、其中φ0表示参考距离d0=1处的信道增益，μ>1表示路径损耗指数，di，j[tn]表示第n个时隙无人机j和地面车辆i之间的欧几里得距离。采用频分多址（FDMA）协议在地面车辆之间共享带宽，将处理结果传输给无人机。那么，从车辆i到无人机j的可用G2A上行链路传输速率为γG2A i，j[tn]=BUL i log2（1+P TX iφ0（di，j[t]）−μBUL iσ2 0），其中BUL i表示分配给车辆i的上行链路带宽，P TX i是车辆i的发射功率，σ2 0是噪声的功率谱密度。此外，从无人机j到车辆i的A2G下行链路传输速率为γA2G i，j[tn]=BDL j log2（1+P TX jφ0（di，j[t]）−μBDL jσ2 0），其中BDL j表示UAV j的下行链路带宽，P TX j表示UAW j的发射功率。

E 威胁模型

UDRN中的数据共享过程中考虑了以下潜在威胁。
•恶意内幕无人机。由于开放接入无人机网络，包括恶意实体在内的任何实体都可以自由连接无人机。因此，无人机可能会受到威胁并被其控制，以篡改所捕获的感官数据、传递虚假信息并生成假块。
•对数据来源的威胁。由于不可靠的无线环境，在多跳数据传输期间，传递的数据（例如，感知数据、处理的结果和调度命令）可能被篡改、删除或替换。同时，当发生争议时，很难追踪数据来源以加强问责制。
•对错误行为追踪的威胁。传统的集中式不当行为跟踪机制通常缺乏透明度和可审计性，并且可能遭受单点故障（SPoF）和DDoS攻击，从而导致难以进行可信、可审计和不可变的不当行为跟踪和处罚执行。

提出的机制：RESCUECHAIN

在本节中，我们介绍了RescueChain的详细设计，这是一个基于区块链的系统，用于UDRN中安全高效的数据共享。

A RescueChain概述

在UDRN中，由于稀疏的网络环境和可能的不良连接，网络分区可能频繁，导致区块链分叉的风险。此外，无人机在电池、计算和存储方面的资源有限，限制了传统资源匮乏区块链的采用。因此，拟议的RescueChain应该是低成本的、无基础设施的，并且在UDRN中是健壮的。为了实现这三个目标，我们做了两项改进。一种是基于VFC的链下机制，用于从无人机上卸载繁重的数据计算和存储任务；另一种是基于信誉的Tendermint共识协议，用于在弱连接环境中以改进的安全性鲁棒地达成共识。具体而言，包括以下阶段：
•实体注册和密钥分发。在这一阶段，在CA注册后，每个授权实体获得其密钥对，并选择其在系统中的角色。
•基于VFC的链外存储和计算。该阶段在VFC范式下为无人机执行链外数据计算和存储。
•基于声誉的最终共识过程。在这个阶段，每个实体都运行基于信誉的Tendermint协议，以通过验证器选举、两阶段投票和信誉评估，就要添加到区块链的新区块达成共识。

B 实体注册和密钥分发

CA基于Boneh Lynn Shacham（BLS）短签名方案[32]选择系统参数parm=（e，G1，G2，G3，q，G1，G2），并将其广播到网络。这里，e:G1×G2→ G3是乘法双线性映射，Gk（k＝1，2，3）是具有素数阶q的群，g1和g2分别是g1和g2的生成元。然后，CA选择两个哈希函数H0：｛0，1｝∗ → G2和H1:｛0，1｝∗ → Zq。在使用其真实身份RIDm注册之后，每个授权节点m∈Min区块链获得了一组L个私钥/公钥对｛sklm，pklm｝lL=1、钱包地址和来自CA的证书。这里，sklm S←− Zq，pklm=gskl m 2∈ G2和S←− 表示随机抽样。

C 基于VFC的链外存储与计算

在VFC中，对传感数据的大量计算（例如幸存者检测和视频预处理）可以卸载到地面车辆上，通过返回处理结果来节省无人机有限的电池能量。为了减轻区块链的开销并增强系统的可扩展性，基于VFC的链外方法通过将感测和处理的数据移动到链外存储库，并将源数据的数据指针保留在区块链上而得到应用。设D为要在UDRN中传递的数据集。每个数据d∈D包含两个部分，即原始感官数据绘制和处理结果输出。在RescueChain中，行星间文件系统（IPFS）[33]用作分布式链外数据存储，其中每个数据d以IPFS中分布式文件的格式存储，并由其哈希指针H0（d）＝{H0（draw），H0（dout）}唯一寻址。地面车辆充当IPFS中的分布式存储节点。在基于VFC的任务Γj，k的计算卸载过程之后，UAVj向网络发送链外存储事务txdata，如下所示：
在这里插入图片描述
其中pklj是UAV j的公钥。{pkli}Ik i=1是涉及处理任务Γj，k的车辆的公钥组。descd是数据d的描述。tStamp是txdata创建的时间戳。σj=H0（txdata）skl j是无人机j的签名。σk=∏Ik i=1̄σi是Ik车辆的BLS多重签名，其中̄;σi=H0（txdata）ωi·skl i和ωi=H1（pkli，{pkl1，··，pklIk}），certDS是IPFS数据存储颁发的唯一证书。

D 基于声誉的倾向共识协议

在RescueChain中，Tendermint协议[34]被采用，以在各种不信任的无人机之间达成共识，因为其比替代方案具有高能效和部分分区容忍度。为了适应UDRN中的稀疏网络环境，为了节省带宽，在共识阶段采用了多签名方法[32]。为了进一步提高共识的安全性并加快共识进程，RescueChain将声誉纳入Tendermint中，用于确认人选举和分组投票。拟议的基于信誉的投标协议包含以下步骤：
步骤1：验证程序选择。共识过程由选举产生的确认委员会管理，表示为Z={1，··，Z}。设U={1，··，U}是全节点的集合。每个完整节点u∈声誉U大于阈值thre的U可以投票给代表，其投票权重由其股份决定（即声誉U）。投票最高的前Z名代表被选为确认委员会Z，该委员会进一步分为两类：一级确认人和二级确认人。投票最高的前Ψ验证器充当一级验证器，可以提出并验证新的块，而剩下的Z− Ψ验证器是只能执行块验证的2级验证器。

第二步：共识进程。对于区块链的每一个高度h，都会运行一个基于回合的协议来决定新的区块，它由三个阶段组成：提议、预注释和预提交。为了最终在弱连接UDRN中达成共识，通过定义传输延迟的已知上界Δp和未知全局稳定时间（GST），在提议阶段采用了部分同步模型[35]。这意味着GST之后，两个正确实体之间的所有传输都将在超时Δp内到达。具体而言，与前一轮相比，每一轮都会在此阶段增加一个小的固定超时增量Δp[34]。以循环方式从Ψ1级验证器中指定一名领导者。在第r轮，领导者从其本地内存池中收集一批最近的事务，按时间戳排序，并将它们打包到一个块B中，其中包含链接到前一个块的哈希。然后，将签名的提议M sg传给网络，其表示为：
在这里插入图片描述
其中，γ是锁的证明（PoL），表示前导的锁块，σ是其签名。B区（或零）的PoL意味着领导者在高度h的r轮处收到B区（或者零）的至少2个3 Z前音[36]。锁定机制与两阶段投票一起用于防止区块链分叉（即，两个不同的区块在同一高度提交）。

如果验证器z∈Z在上一轮被锁定在一个区块提案上，它用其签名σZ广播锁定区块的前注。否则，如果在验证后收到了当前一轮的有效提议，验证器z将为该块广播带有其签名的prevote。如果在超时proposalTtimeout内没有收到任何建议或无效的建议，验证器z将提示为nil。prevote消息的显式形式为:
在这里插入图片描述
其中block是前面提到的block或nil。

由不同验证器签名的相同prevote或precommit消息可以由BLS多重签名聚合，以获得压缩的签名大小。如果验证器z接收到特定块的三分之二以上的预提交，它只需将其提交时间commitT时间设置为当前时间，然后在下一个高度h+1处转到第0轮。然后，特定块最终被提交。否则，它将以当前高度h移动到下一轮r+1。然后，指定新的领导者，并重复上述过程。在进入下一个高度h+1之前，验证器会等待一段固定的时间，直到超过commitT时间，以便在区块链中包含更多网络连接较慢的验证器提交。

第三步：声誉评估。基于行为效应和时间衰落效应两个方面来计算每个完整节点的信誉。设ini u为完整节点u的初始声誉。通常，节点的声誉可以通过良性行为逐渐提高，而通过不当行为显著降低；同时，在决定当前声誉方面，最新的行为比以前的行为更重要[37]。区块链中考虑以下不当行为。对于领导者来说，它可能会通过在错误的圆度和高度上产生无效块或真块来进行错误的块创建（wbc）错误行为，或者通过将冲突块传递给不同的验证器来进行冲突块创建（cbc）错误行为。此外，如果块建议未按时生成或脱机或分区，它可以执行非块创建（nbc）错误行为。对于验证器，他们可以通过向冲突块提供预通知或预承诺来执行冲突见证（cw）行为。为了加快错误行为检测并降低报告费用，节点可以通过收集加密追踪作为证据并生成报告交易，形成告密者组来报告错误行为，如下所示：
在这里插入图片描述
其中pklu′是被控节点u′的公钥。｛pklu｝Nrep u＝1和σrep分别是Nrep告密者的公钥和BLS多重签名。费用是用于防止DDoS攻击的固定报告费用，并在其中平均分配。证据是收集的证据，例如数字签名。如果txrep被验证为真实并记录在区块链中，则举报人组内的所有成员将获得声誉增加Δrep以及被指控实体的声誉减少Δacc的奖励。否则，花费的报告费是徒劳的。此外，区块链中还考虑了以下良性行为：领导者的成功区块创建（sbc）行为和验证器的成功区块验证（sbv）行为。设Δb为行为b的声誉奖励或惩罚。二元变量βb={−1，1}，其中βb＝1if b是良性行为；βb=−如果b是不当行为，则为1。在每个时隙，完整节点u的信誉可以计算为：
在这里插入图片描述
其中N N u是节点u在第N个时隙的记录行为数，η>0是指数衰减因子。在每一轮共识后，根据区块链中存储的时间戳行为记录更新完整节点的信誉值。

E 安全假设

根据[34]，[36]，在网络的部分同步假设下，我们的RescueChain系统的弹性高达拜占庭验证器的1/3。此外，面对网络异步，通过在给定高度进行多轮提交一个块，如果三分之一或更多的验证器离线并在UDRN中分区，我们的系统将停止。与PBFT中的O（n3）视图改变开销相比，在该方案中，使用循环切换的总通信复杂度降低到O（n2）。由于区块链的去中心化账本和特殊的数据结构（即，交易被加上时间戳、签名，并以哈希链块的形式记录在Merkle树结构中），共享数据和节点错误行为可以公开透明地追溯到源头，以确保所传递信息的来源和错误行为的可追溯性。由于只有注册了RID的节点才被授权进行网络访问，因此可以在防止身份盗窃的同时，促进无人机的空中交通调度。通过动态更改事务中的公钥，真实身份可以被隐藏并保持不可链接，以保护节点的身份隐私。

两层基于RL的最佳卸载

在基于VFC的实际卸载过程中，准确的网络参数和成本参数可能不容易用于无人机和地面车辆。Q学习方法作为无模型RL技术的一个分支，可用于在参与者无法获得准确的系统参数时，通过试验获得地面车辆的最优共享计算资源量（AoCR）策略和无人机的最优定价策略。这里，假设所有参与者都是自私和理性的，他们的目标是优化自己的利益。首先需要分析双方的收益函数。

无人机的支付功能。基于VFC的卸载中无人机j的收益函数定义为其收入减去成本：
在这里插入图片描述
其中fj={fi，j，k}Kj k=1是参与无人机j的VFC过程的地面车辆的AoCR向量，pj={pi，j，k}Kj k=1是无人机j对应的支付向量。等式（12）中的第一项表示无人机j在每个任务Γj，k中获取AoCR fi，j、k的累积满意度[38]。这里，βj是无人机j的满意度系数。δj，k是任务的紧急程度Γj，k，并在等式（4）中定义。C（fj，pj）是成本函数，它包含两个部分：计算资源的支付（即θppi，j，kfi，j，k）和获取处理结果的时间延迟（即T延迟i，j，k）。因此，我们有：
在这里插入图片描述
其中wp是权重参数，θp是价格调整参数。

1）延迟分析。对于每个任务Γj，k，卸载期间的总时间T延迟i，j，k由三部分组成，即A2G传输时间tA2G i，j、k、执行时间tvfc i，j和G2A传输时间tG2A i，j。这里，A2G传输的时间为tA2G i、j，k=Dj，kγA2G i，j，车辆i可以离开UAV j的通信范围，进入另一个UAV j′，j′=j的覆盖范围。在不丧失一般性的情况下，设tk为UAV j开始卸载任务Γj，k的时隙，我们考虑以下两种G2A传输时间的情况：
在这里插入图片描述
这里，γA2A j′，j是无人机j′和j之间的A2A传输速率。因此，我们有T延迟i，j，k=tvfc i，j、k+tA2G i，j和k+tG2A i，j。

2）能耗分析。对于UAV j，其在A2G传输中的能量消耗为EA2G i，j，k=P TX j·tA2G i，j，k。假设UAV j的速度恒定且等于任务卸载期间的vj，我们可以进一步获得UAV j飞行能量，如下所示：
在这里插入图片描述
因此，无人机j的显式收益函数由下式给出：

这里，公式（17）是时间延迟约束，公式（18）是UAV j的电池能量约束，公式19是价格约束，pmax j,k 是最大付款。

地面车辆的支付功能。基于VFC的任务卸载中地面车辆i的收益函数定义为其利润减去成本：
在这里插入图片描述
这里，θc和λe是正调整因子。ci是车辆i的计算资源的单位成本。等式（20）中的最后一项表示车辆i在任务执行和数据传输中的总能耗。公式（21）是任务Γj，k中车辆i的AoCR约束。

基于学习函数Q的无人机支付方案要注意，无人机的高额付款可能会降低其即时收益，同时会提高地面车辆的AoCR，进而影响其未来收益。UAV j的动态定价问题可以表述为马尔可夫决策过程（MDP）问题[4]，[13]，其中UAV j观察系统状态转变，并确定其行为（即支付）以最大化其预期回报。这里，无人机j在第n个时隙的系统状态表示为向量sjn＝{sin，j，k}Kj k＝1，其包含相应地面车辆的先前AoCR序列，即sjn=f n−1j。UAV j在第n个时隙的动作是pjn。由于状态向量在第（n+1）个时隙的转移仅取决于状态sjn和动作pjn，状态序列{sjn，n=1，2，··，n}遵循MDP。为了简单起见，UAV j的动作空间被均匀地离散为A级，即pin，j，k∈｛a a｝−1·pmax j，k}0≤一≤A.−1.通过应用Q学习方法，UAV j可以通过以下步骤解决其MDP问题：
•当n=1时，UAVj将其Q表中的所有元素初始化为零，并随机生成动作pi1，j，k，∀k、
•对于1<n≤ N，在观察系统状态sjn之后，UAV j通过采用贪婪策略来选择其动作引脚j，k，以平衡学习期间的探索和开发。具体而言，最大化其Q函数的贪婪行为以高概率1被选择，而可能带来更多未来回报的其他行为以小概率被选中。
在这里插入图片描述
这里，Q（sin，j，k，pn i，j，k）是UAV j的Q函数，状态为sn i,j,k，动作为pn i,j,k。

•在第n个时隙，在采取行动pjn之后，UAVj获得其奖励，即等式（16）中的πj（sjn，pjn）。然后，根据贝尔曼方程，可以以迭代方式更新Q函数，即:
在这里插入图片描述
式中ξ1∈ （0，1]是学习率，ς1∈ [0，1]是贴现系数，表示未来收益相对于当前收益的相对重要性。

基于Q学习的地面车辆AoCR。AoCR决策过程可以用有限MDP表示。由于地面车辆无法及时获得所有准确的系统参数，因此无法立即获得其最佳AoCR策略。每个地面车辆i可以采用Q-学习方法，通过试验达到其最佳AoCR策略。在第n个时隙，观察到系统状态后，j，k=pn−1 i，j，k，车辆i应用贪婪策略选择其行动（即AoCR f n i，j、k）如下：
在这里插入图片描述
这里，2∈ （0，1]）.Q（όsin，j，k，fn i，j，k）表示车辆i的Q函数，状态为sin、j、k，作用为f n i，j、k。为简单起见，车辆i的作用空间统一离散为B级，即f n i，j，k∈｛b b｝−1·f最大i，k}0≤b≤B−1.车辆i解决其MDP问题的详细程序如下所示：•当n=1时，车辆i将其Q表中的所有元素初始化为零，并随机生成动作f 1 i，j，k。
•对于1<n≤ N，根据观察到的系统状态，车辆i通过采用贪婪策略来选择动作f N i，j，k。
•在第n个时隙，在选择动作f n i，j，k之后，车辆i计算其奖励，即等式（20）中的πi（όsin，j，k，fn i，j）。基于迭代Bellman方程，其Q函数可更新为：
在这里插入图片描述
式中ξ2∈ （0，1]是学习率，ς2∈ [0，1]是折扣系数。

性能评估

A 仿真设置

在一个面积为20×2000 m2的灾区，考虑了一个由10架无人机、200辆地面车辆和1辆ECV组成的模拟场景。车辆在宽度为20m、长度为2000m的双车道道路上行驶，其最大速度和最小速度分别为72 km/h和24 km/h。无人机以预设的直线轨迹在两车道道路上50米的恒定高度飞行[39]。每架无人机的卸载任务数量均匀分布在[10，20]内。每个任务Dj，k的数据大小和处理一位数据所需的CPU周期Θi，j，k分别以[1，10]Mbits和[10，200]CPU周期/位随机生成[28]。每辆车的成本参数ci遵循[4，8]美分的均匀分布。我们的RescueChain系统通过利用Docker容器环境建立在Tendermint Core共识引擎[40]之上。表I汇总了其他参数。
在这里插入图片描述
在模拟中，考虑了两种类型的恶意内部无人机：（i）它们可以通过首先诚实地行为以获得声誉，然后开始不当行为来发起欺骗攻击；（ii）或串通攻击，通过串通在一起向恶意代表投票并见证共识过程中的错误区块。我们将所提出的方案与传统方案的性能进行了比较，如下所示：•基于RL的单层方案：每辆地面车辆采用Q-学习来获得其最优AoCR策略，而无人机的定价策略是固定不变的。
•随机方案：所有参与者（即地面车辆和无人机）分别在Q-learning中随机选择其AoCR和定价政策。
•基于累积信誉的Tendermit（ART）方案：Tendermit中验证者的信誉值通过使用η=0和Ψ=Z的等式（11）通过其累积行为效应进行评估，表明不考虑时间衰减效应和2级验证者。
•Tendermint方案[34]：所有完整节点运行天真的Tender mint算法以达成共识，其中缺少完整节点的信誉评估。

B 仿真结果

图2、图3和图4描述了Qlearning过程中地面车辆和无人机的平均AoCR和付款的演变，以及它们的平均收益。如这三张图所示，地面车辆的AoCR（或收益）首先增加（或减少），然后达到稳定值。与此同时，无人机的支付（或回报）首先减少（或增加），然后变得稳定。原因是，在观察到最初高额付款刺激的车辆高AoCR后，无人机打算逐步降低其付款，以提高其收益。此外，作为对无人机先前付款的回应，无人机通过增加其AoCR并降低其回报来追求最大化利润。
在这里插入图片描述
图5和图6显示了当车辆成本参数ci从2美分增加到8美分时，三种方案中地面车辆的平均AoCR和无人机的平均收益。如两张图所示，与单层RL方案和随机方案相比，我们的方案可以提高车辆的AoCR，同时获得更好的无人机收益。原因是，在一层RL方案中，由于支付策略是固定的，并且在一次交互后可以观察到，因此无人机无法鼓励车辆的高计算资源共享，并通过动态定价提高其收益。在随机方案中，由于参与者的支付和AoCR策略是随机决定的，因此车辆的AoCR和无人机的收益都不是最优的。在所提出的方案中，通过应用Qlearning，无人机和车辆可以分别确定它们的最优支付和AoCR策略，以在高度动态的环境中最大化它们的利益。
图7显示了当信誉阈值thre从4到10变化时，三种方案在100秒内达成共识的平均轮次。在该模拟中，在每个共识轮次中随机选择三分之一的无人机，并在它们的每个读写操作上注入随机延迟τd，其中τd在（0，3000）毫秒内均匀分布。我们可以看到，所提出的方案在获得最低平均轮数方面优于其他两个方案。可以解释如下。一方面，在ART方案中，由于参与者的不当行为和长期离线状态会导致声誉下降，因此诚实节点成为验证者的概率可能会增加，从而导致比天真的Tendermint方案更低的达成共识的平均轮数。另一方面，由于声誉没有时间衰减，过去的行为在决定当前声誉时占据很大的权重，导致遭受欺骗攻击的风险更高。此外，由于在声誉评估期间ART方案中未考虑2级验证器，因此行为不端的实体成为区块链领导者的概率可能会增加。因此，ART方案中达成共识的平均轮次比拟议方案中的轮次相对较长。
在这里插入图片描述
图8说明了当任务Dj，k的数据大小从2 Mbits变为8 Mbits时，两种方案中的平均卸载延迟。在没有VFC的方案中，无人机感知数据的计算被卸载到ECV进行处理。如图8所示，我们的VFC方案可以显著减少不同任务大小下的卸载延迟。原因是地面车辆组配备了足够的计算资源，并且接近无人机。同时，远程ECV的计算资源可以被所有无人机卸载的繁重任务完全占用，导致长等待时间和高交付延迟。由于在VFC下可以有效地卸载繁重的计算任务，因此无人机的能源效率也可以提高。

总结

在本文中，我们提出了RescueChain，这是一种在区块链和支持RL的UDRN中安全高效的信息共享方案。首先，我们在协同空地网络中设计了一个轻量级的基于区块链的框架，以保护数据共享和追踪不当行为实体。其次，开发了基于信誉的共识协议，以提高弱连接UDRN中的共识效率。还制定了一种基于VFC的链下机制，以有效地将无人机的繁重数据处理和存储任务卸载到地面车辆上。此外，还设计了一个基于RL的模型，以在任务卸载期间优化调度无人机和地面车辆的支付和计算资源共享策略。最后，仿真结果表明，与传统方案相比，所提出的方案可以获得更好的用户回报，并减少共识过程和数据传递的延迟。对于未来的工作，我们计划通过AI方法，基于区块链中记录的大量不当行为，调查在线快速不当行为检测。

Lifesaving with RescueChain: Energy-Efficient and Partition-Tolerant Blockchain Based UAV-Aided

摘要

引言

相关工作

A 基于区块链的信息共享

B 无人机计算卸载