摘要：

地空一体化电力物联网(AGI-PIoT)和云边端协作的结合，实现了灵活的覆盖和实时数据处理。然而，如何在AGI-PIoT中实现智能云端协同，面临着空中网络动态、多层次、时间尺度、维度资源分配耦合、信息不完全、维数诅咒等挑战。在本文中，我们提出了一种基于联邦深度强化学习的多层多时间尺度多维资源分配算法。基于李雅普诺夫优化方法，将多层多时间尺度多维资源配置问题分解为三个子问题。针对联合任务卸载和功率控制子问题，提出了一种基于联邦深度角色临界的半分布式算法。采用二次规划的方法求解入场控制子问题。第三个子问题通过平滑逼近和拉格朗日对偶分解来解决。仿真结果表明FEDERATION算法在排队时延、能量消耗和收敛性等方面优于现有算法。

- 引言

5g授权的电力物联网(PIoT)设备已部署在电力系统中，以提供连续监测、无人控制和故障检测。这些设备产生了大量的计算任务，这些任务必须卸载到云服务器上，并在严格的延迟要求[1]，[2]内进行处理。然而，由于电力基础设施位置偏远，PIoT面临严格的蜂窝网络覆盖和大的任务卸载延迟[3]。针对这些不足，需要一种新型的空地一体化动力物联网(AGI-PIoT)框架，利用云服务器和边缘服务器提供强大的计算能力，并通过部署无人机[4]、[5]实现灵活覆盖。一方面，云服务器可以弥补边缘服务器计算资源的不足。与地面基站相比，无人机可灵活部署，满足突发通信需求，提供高速率数据传输服务[6]。AGI-PIoT集成了云-边-端协同，通过联合优化设备端数据接收、任务卸载、功率控制，以及边缘端和云端计算资源分配[7]，减少数据处理延迟。尽管有上述优点，但这两种技术的无缝结合需要从智能的角度通过数据接收、传输和处理有效利用通信、能源和计算资源。如何在AGI-PIoT中实现智能云边端协作仍面临三大挑战。首先，尽管空中网络由于可见光(LoS)链路提供了更高的信道质量，但其覆盖可用性因无人机机动性而动态变化。航空网络的异构性和动态性给云-端协同带来了新的困难。其次，资源分配是在多层、时间尺度和维度上耦合的。例如，应用层的准入控制影响物理层的任务卸载、电源控制、计算资源分配等;应用层的准入控制影响物理层的任务卸载、电源控制、计算资源分配等。大时间尺度的任务卸载也会影响小时间尺度的功率控制、准入控制和计算资源分配。最后，每个设备都要获得完整的全局状态信息(GSI)是不现实的。进一步讨论了算法的最优性和收敛性由于维数诅咒，一些机器学习技术(如强化学习(RL))的性能显著下降。目前在云端协同和AGI-PIoT的资源分配方面已经有了一些研究。在[8]中，Kai等人开发了一个设备、边缘节点和云中心之间的协同计算框架，以实现延迟最小化。该方法主要关注地面网络，没有考虑AGI-PIoT的异构性和动态性。在[6]中，Shang等人研究了支持AGIwireless网络的移动边缘计算(MEC)，并开发了一种基于坐标下降的算法来最小化用户设备的能源消耗。然而，这些工作依赖于完善的GSI，在信息不完整的情况下，在实际实现中表现较差。深度强化学习(DRL)通过结合深度学习的特征提取和预测能力，以及RL[9]，[10]的顺序决策优化能力，在解决高维优化问题方面具有潜力。它包含集中式学习和分布式学习范式，但两者都不能在学习成本和性能之间提供平衡的权衡。集中式DRL由于原始数据的上传导致通信成本较高，而分布式DRL由于没有充分利用附近设备的相似环境观测数据，学习性能相对较差。为了提供解决方案，一些研究人员尝试将联邦学习(FL)与DRL结合起来，以获得集中式和分布式学习的好处。联邦DRL可以通过利用半分布式模型训练来减少通信开销，并通过联邦平均充分利用网络观测来提高学习性能。为优化车对万物通信[11]中的通信资源分配和传输模型选择，提出了一种双时间尺度联邦DRL算法。在[12]中，Kwon等人设计了一个基于联邦drl的资源分配和小区关联方案，以最大化水下物联网设备的吞吐量。然而，这些工作不能应用于考虑动态随机数据到达和长期能耗和数据接收约束的多层多时间尺度多维优化问题。为了解决上述挑战，我们提出了一种基于联邦深度强化学习的多层多时间尺度多维资源分配算法(FEDERATION)，用于agpiot中的云-边-端协作。目标是在数据接收和能耗的长期约束下，尽量减少所有PIoT设备的排队延迟。首先，采用Lyapunov优化方法将任务卸载、功率控制、准入控制和计算资源分配的短期优化与长期约束解耦;将所提出的多层多时间尺度多维优化问题分解为三个短期子问题:1)任务卸载和功率控制;2)准入控制;3)计算资源分配。在此基础上，我们提出了一种基于联邦深度角色批评(AC)的[13]半分布式多时间尺度任务卸载和功率控制算法，以解决维数诅咒问题，平衡学习成本和功耗之间的权衡的性能。第二个子问题由每个PIoT设备以分布式方式解决。最后，在大尺度任务卸载决策的基础上，各服务器优化小尺度计算资源分配。第三个子问题可以通过平滑逼近和拉格朗日对偶分解来解决。这些贡献总结如下。1)多层多时间尺度地空异构资源多维优化:FEDERATION在大时间尺度上优化物理层任务卸载，在小时间尺度上优化应用层录取控制、物理层功率控制和计算资源分配。2)维数诅咒下的半分布式学习:FEDERATION通过引入集中协调的设备松散联邦，将DRL模型训练与原始训练数据征用分离，并采用参与者网络和评论家网络绘制动作、更新策略、批评策略优化。3)广泛的性能评估:在AGI-PIoT的各种场景下，从排队延迟、能量消耗、收敛性等方面与目前最先进的算法进行比较，验证FEDERATION算法。本文的结构如下。第二部分介绍了AGI-PIoT系统模型。第三节阐述了优化问题。第四节介绍了所提出的FEDERATION算法。第五节介绍了半分布式多时间尺度任务卸载和功率控制算法。第六节给出了仿真结果。最后，第七节对本文进行了总结。

2、系统模型

图1显示了AGI-PIoT网络，它由大量的PIoT设备、BSs和服务器组成。这些设备都沿着电力传输线部署，以提供24/7的服务实时监控服务。I PIoT设备集记为U = {u1，…，ui，…, uI}。共有J + 1个基站，包括1个宏基站(MBS)、M个小基站(sss)和J−M个无人机(uav)，其集合记为S = {s0, s1，…, sj,…，sJ}，其中sJ, j = 0，表示MBS, sJ, j = 1，…，M，表示SBS, sj, j = M + 1，…，J，表示无人机。MBS为所有设备提供大范围通信覆盖，SBSs和无人机为热点地区提供本地覆盖作为补充。有一个云服务器和J + 1边缘服务器。云服务器具有强大的计算能力，但位于远离设备的位置。它通过用于MBS和SBS的有线回程链路和用于无人机的无线链路与BSs连接。边缘服务器与BSs一起部署，为设备提供近似计算服务。与地面基站相比，由于LoS链路，无人机具有较高的传输速率，但由于其有限的承载能力和固有的机动性，其计算能力和间歇性服务可用性相对较弱。可以集成AGI-PIoT和云边端协作的异构性，以适应数据的异构性，具体实现如下:首先，设备生成大量的延迟敏感任务数据，其中一部分被接收到其本地缓冲区。其次，设备决定自己的传输功率，并通过MBS、SBS或UAV将接收的数据卸载到云服务器或其中一台边缘服务器上。特别是，该设备可以通过无人机将数据密集型业务的任务数据卸载到边缘服务器，例如:电力视频检测，并通过地面基站将计算密集型业务(如光伏输出预测)卸载到云服务器。每个服务器根据数据量和计算复杂度分配计算资源来处理卸载的数据。示例如图1所示。u1首先可以通过MBS s0、SBS s2或UAV s4卸载数据。当s4移动到u1的通信范围之外时，u1只能通过s0或s2卸载它的数据。我们利用离散时隙模型和准静态模型[14]。如图1所示，我们考虑G个epoch，每个epoch被划分为T0 = duration τ，即一个时隙。epoch的集合由G ={1，…, g,…，G}，记为T (G) = {(G−1)T0 + 1，(G−1)T0 + 2，…, gT0}。G个epoch总共包含T个时隙，即T = T0G。将时隙的集合表示为T ={1，…， t，…T}。无人机的位置变化时间尺度大，信道状态信息变化时间尺度小。我们考虑了多层、多时间尺度的多维资源配置。1)多层:应用层优化准入控制，物理层优化任务卸载和电源控制;2)多时间尺度:在每个epoch(大时间尺度)优化任务卸载，避免切换成本[15]、[16]，在每个时隙(小时间尺度)优化功率控制、准入控制和计算资源分配，减少能耗和数据积压;3)多维:优化能源、通信、计算等多维资源的配置。联邦可以优化多时间尺度的任务卸载和功率控制DRL，具有优越的学习性能和较少的沟通开销。详情见第五节。

A.准入控制模型

表示到达设备ui的任务数据量为Ai(t)，其上限为0≤Ai(t)≤Ai,max。其统计模型未知。允许控制决策用于确定可以允许进入缓冲区的数据的部分。由于数据的突发到达和冗余，通过确定可以进入缓冲区的数据部分，可以利用准入控制来缓解大量的积压增量和资源浪费。鉴于监测精度与接收数据量呈正相关，因此，接收控制决策ai(t)应满足以下应用层约束，即:

式中ai,min表示每个时隙内监控服务需要接收的最小数据量，即短期接收约束。θG∈(0,1)为监测业务的最小平均数据接纳比，即长期接纳约束。长期和短期的接收约束保证了接收的数据量不超过到达的数据量，保证了接收的数据量满足PIoT监测精度的要求。存储在ui缓冲区中的数据被建模为设备端数据队列。它的backlog记为Qi(t)，更新为

其中Ui(t)是吞吐量。

B.任务卸载模型

s的覆盖可用性;u;表示为二进制变量wi,j(g){0,1}，其中wi,j(g) = 1表示UI位于s的覆盖范围内;在GTH纪元，即s;可用于ui。任务卸载优化分为两个阶段:1)BS选择，即选择MBS、SBS或UAV进行数据传输;2)计算范式选择，即数据处理选择云计算或边缘计算。特别指出了用户界面的任务卸载决策作为二进制指标 x（g） = {（g），（g）， UI EU， sj ES}，其中xj(9) = 1表示u;选择年代;用于GTH时代的任务卸载。(g) = 1表示u选择第g个纪元的边缘计算，(g) =O表示ui选择第g个纪元的云计算。选取相同BS的PIoT器件使用正交谱进行分配。该频谱被SBSs和无人机重用，以提高频谱效率。因此，只有SBSs和uav之间的cell间干扰被认为是[17]。传输模型介绍如下。

1) Device-SBS传输模型:ui与SBS sj之间的传输速率为

其中Bi,j (t)， Pi(t)， hi,j (t)， ri,j (g)分别为带宽、发射功率、信道增益、ui与sj之间的水平距离。Ij e(t)、δ2和αS分别为器件- sbs信道的电磁干扰功率、噪声功率和路径损耗指数。将ui的最小传输功率和最大传输功率分别记为Pi,min和Pi,max。将传输功率离散为N级，即Pi(t)∈P = {Pi,min，…，Pi,min + (n−1)(Pi,max−Pi,min) n−1，…，Pi,max}。[12]和[13]也采用了类似的假设。

2) Device-MBS传输模型:ui与MBS之间的传输速率为

扫描二维码关注公众号，回复： 14729892 查看本文章

其中αM为器件- mbs信道的路径损耗指数。

3)设备-无人机传输模型:ui与无人机sj之间的路径损耗由[18]给出

Di,j (g)表示UI到sj的垂直距离。ηLoS i,j,g是LoS链路自由空间路径损失之外的附加损失，ηi,j,g NLoS是非视线(NLoS)链路的附加损失。Fc是载频，c是光速。PLoS i,j,g为设备-无人机链路的LoS概率。则ui与sj之间的传输速率为

由式(5)、式(4)、式(7)可知，吞吐量Ui(t)为

C.数据计算模型

ui中未处理的数据存储在边缘服务器和云服务器的缓冲队列中。队列积压记为He i,j (t)和Hi c(t)，它们演化为

Ze i,j (t)和Zi c(t)分别表示sj和云服务器处理的数据量。Zi i,j (t)和Zi c(t)分别得到

其中f e i,j (t)和fi c(t)为sj和云服务器为处理ui卸载数据而分配的CPU周期频率。λi为ui数据的计算密度

D.能耗模型

ui进行数据传输的能耗为

考虑到PIoT设备的电池容量有限，长期的能源消耗限制为

其中Ei,max是ui的能量预算。

E.排队延迟模型

延迟需求是根据排队延迟[19]定义的。端到端延迟由数据传输τi Q(t)的排队延迟和计算τi H(t)的排队延迟组成。其中，τi H(t)为J + 1边缘服务器和云服务器上的最大排队延迟。根据利特尔定律[20]，排队延迟与排队长度成正比，与平均数据到达率成反比。因此，用户界面的数据传输、边缘计算和云计算的排队时延分别为

其中τ e→c j, j = 0，…，M，是τ e→c j, j = M + 1时，通过有线回程链路转发数据到云服务器的延迟。， J，是通过无线回程链接。~ ai(t)， ~ Ue i,j (t)，和~ Uc i(t)是Qi(t)， He i,j (t)和Hi c(t)的平均数据到达率。计算的排队延迟τi H(t)的推导为

3、问题公式化

多层多时间尺度多维优化问题的目标是使所有PIoT的总排队延迟最小化在长期的数据准入和能耗约束下，设备通过准入控制、加载任务、功率控制和计算资源分配的联合优化，其表达式为

x = (x(g): g∈g)表示大时间尺度任务卸载向量。a = (ai(t): ui∈U, t∈t)， P = (Pi(t): ui∈U, t∈t)， f e = (f e i,j (t): ui∈U, sj∈S, t∈t)， f c = (fi c(t): ui∈U, t∈t)表示边缘服务器端和云服务器端的小时间尺度准入控制、功率控制和计算资源分配向量。C1限制每个PIoT设备在每个epoch中只能选择一个BS和一个计算范式进行任务卸载。C2表示短期数据接收约束。C3和C4表示sj和云服务器分配的计算资源量不能超过它们的最大可用CPU周期频率f e j,max(t)和f c max(t)。C5是传输功率约束。C6为长期的能耗和数据准入约束。为了求解P1，我们首先借助Lyapunov优化将短期优化与长期约束解耦。采用C6对应的虚拟队列Ni(t)和Yi(t)[21]，即:

其中Ei，最大T是单槽能量预算。Ni(t)值越大，说明录取数量严重不足。同理，Yi(t)值越大，说明能量消耗过度严重。基于Lyapunov优化，当Ni(t)和Yi(t)均值速率稳定，即limt→∞E{Ni(t)} t = 0和limt→∞E{Yi(t)} t = 0时，C6自动成立

P1等价地变换为

定义Θ(t)=[Qi(t)， He i,j (t)， Hi c(t)， Ni(t)， Yi(t)]，李雅普诺夫函数为

定义李雅普诺夫函数在相邻两个时隙之间的期望偏差为一步李雅普诺夫漂移，即:

L的绝对值越小(Θ(t))表示队列积压的波动越小，队列稳定性越好。漂移加惩罚项定义为

V比;0用于在“延迟最小化”和“队列稳定性”之间进行权衡。因此，P2的优化目标转化为最小化V L的上界(Θ(t))，在保持队列稳定的同时最小化延迟。基于所涉及的优化变量，将P2分解为三个确定性子问题，即SP1:任务卸载和功率控制;SP2:准入控制;SP3:计算资源分配。

4、基于联邦drl的多层多时间尺度多维资源分配

我们提出FEDERATION来解决P2。FEDERATION的框架如图2所示，由三个阶段组成

分别对应SP1、SP2、SP3的求解。各阶段具体内容如下:

A.任务卸载和电源控制

在SP1中，ui联合优化了大时间尺度任务卸载决策和小时间尺度传输功率为

Ui(t)受到CSI以及其他PIoT设备的任务卸载和电源控制决策的影响，这些设备对Ui是不可用的。为了解决SP1问题，我们在第五节中提出了一种基于联邦深度交流的半分布式多时间尺度任务卸载和功率控制算法。

B.进入控制

在SP2中，ui决定了允许的数据量。SP2的公式为

SP2是一个变量中的二次规划问题，它在允许的数据量和队列稳定性之间进行权衡。具体来说，当Qi(t)变大时，ui允许更少的数据进入设备端数据队列。反之，当Ni(t)变大时，接纳更多的数据以满足数据接纳的长期约束。

C.计算资源分配

在SP3中，给定x(g)，边缘服务器sj和云服务器决定分配给处理ui数据的计算资源量。为方便起见，我们设置Λ(fi c(t)) = tZi c(t) (t−1)~ Uc i(t) +(1−xci (t))Qi(t)和Γ(f i,j (t)) =i, j (t) (t−1)˜问题我,j (t) + xi, j (t) xc我(t)气(t)。SP3的公式为

C8和C9规定分配的计算资源不能超过处理ui的数据积压所需的计算资源，这有助于提高资源利用效率。根据所涉及的优化实体，SP3可进一步分解为边-服务器端计算资源分配问题SP3-1和云-服务器端计算资源分配问题SP3-2。

1)边缘-服务器端:SP3-1公式为

为了将SP3-1问题转化为凸优化问题，我们将优化目标近似为

经过近似后，SP3−1是凸的，可以用拉格朗日对偶分解求解。这里省略了细节。

2)云-服务器端:SP3−2表述为

云服务器端计算资源分配算法同样可以通过平滑近似和拉格朗日对偶分解得到。

5、联邦深度交流半分布式多时间尺度任务卸载及功率控制算法

在本节中，我们提出了一种基于联邦深度交流的半分布式多时间尺度任务卸载和功率控制算法来解决SP1问题。

A. MDP模型

任务卸载和功率控制问题可以建模为MDPs[22]，[23]。关键要素如下所示。

1)状态空间:对于设备ui，任务卸载SO i (t)的状态空间定义为

功率控制的状态空间SP i (t)还包括任务卸载决策，描述为

2)动作空间:任务卸载和功率控制的动作空间记为XO i (g) = {XO i,j (g)， xC i (g)}， XP i (t) = {XP i,n(t)}，其中XP i,n(t) = 1表示ui选择第n级发射功率。

3)即时奖励:由于SP1是一个最小化问题，所以使用成本函数。对于小时间尺度的功率控制，我们利用单槽代价函数Φ(XO i (g)， XP i (t))。对于大时间段任务卸载，采用T0-slot代价函数，定义为Φ(XO i (g)， XP i (t))对T0个时隙的累加和，即:

B.联邦深度交流半分布式多时间尺度任务卸载与电源控制

在提出的多时间尺度任务卸载和功率控制算法中，云服务器扮演中心服务器的角色并执行联邦平均，MBS负责中心服务器与PIoT设备之间的模型交换。使用先进的模型压缩技术[11]，模型下载和上传的延迟可以忽略不计。构造了两组联邦深度交流网络，分别用于任务卸载和功率控制。对于任务卸载，将ui的全局行动者网络、全局评论家网络、ui的局部行动者网络、局部评论家网络分别记为ωO G(G)、θO G(G)、ωi O(G)、θi O(G)。对于功率控制，ui的全局行为者网络、全局批评网络、ui的局部行为者网络、局部批评网络分别记为ωP G(t)、θP G(t)、ωi P (t)、θi P (t)，具体实现步骤见算法1。首先，采用随机权值初始化全局行动者网络和全局评论家网络。代价函数Φ(XO i (g)， XP i (t))和ΦT0 (XO i (g))初始化为零。本文提出的算法由五个阶段组成，具体介绍如下。1)模型下载:在第gth纪元开始时，即t = (g−1)T0 + 1，各设备(如ui)从MBS中下载卸载全局网络的最大时间尺度任务。接下来，ui将局部任务卸载actor网络设置为θi O(g) = θO g (g)

局部任务卸载临界网络为ωi O(g) = ωO g (g)。在每个时隙，ui从MBS中下载功率控制全局网络，并将局部网络设置为θi P (t) = θP G(t)和ωi P (t) = ωP G(t)。2)动作绘制:在第gth纪元开始时，将状态空间SO i (g)分别输入θi O(g)和ωi O(t)。接下来，ui根据πO(SO i (t) | θi O(g))策略绘制任务卸载动作XO i (g)。在第gth epoch的每个时隙t，将状态空间SO i (t)分别输入θi P (t)和ωi P (t)， ui根据πP (SP i (t) | θi P (t))的策略绘制出功率控制动作XP i (t)。然后，ui执行动作XO i(g)和XP i(t)，并观察ui (t)， Ei(t)， f Ei,j (t)和fi c(t)。之后，ui计算一个槽的成本Φ(XO i (g)， XP i (t)) as(25)和更新t0槽的成本ΦT0 (XO i (g)) as

3)局部模型更新:在第gth epoch结束时，即t = gT0, ui计算任务卸载网络的时间差(TD)误差，将局部任务卸载actor模型θi O(g)和局部任务卸载评论家模型ωi O(g)更新为

其中y E[0,1]是折现因子。K(g)绝对值越大，说明局部任务卸载模型的估计偏差越大。4o，， P和ψP分别为局部任务卸载行为体模型和评论家模型以及局部权力控制行为体模型和评论家模型的学习率。ui计算了功率控制网络的TD误差，并更新了局部功率控制角色模型(t)和局部功率控制批评模型w?(t)

4)本地模型上传:在第gth epoch结束时，ui将更新后的本地任务卸载actor网络θi O(g + 1)和评论家网络ωi O(g + 1)上传到中心服务器。在每个时点t, ui将更新后的本地功率控制actor网络θi P (t + 1)和评论家网络ωi P (t + 1)上传到中央服务器。

5)联邦平均:在第gth epoch结束时，即t = gT0，中心服务器根据所上传的局部任务卸载网络，对全局任务卸载actor模型θO G(G + 1)和全局任务卸载评论家模型ωO G(G + 1)进行联邦平均更新

φO i和φO分别为ui的训练批大小和全局任务卸载actor模型的和批大小。在每个时间段，中央服务器还执行联邦平均，以更新全球电力控制网络

此外，ui∈U将队列积压更新为(3)、(9)、(10)、(18)和(19)。Q1-2。备注1:设置T0 = 1，在任务卸载和功率分配在同一时间尺度的场景下，FEDERATION仍然适用，时间尺度不影响FEDERATION的算法结构。

Cloud-Edge-End Collaboration in Air–GroundIntegrated Power IoT: A SemidistributedLearning Approach

摘要：

引言