【论文阅读】A Survey of Incentive Mechanism Design for Federated Learning 联邦学习激励机制设计综述

A Survey of Incentive Mechanism Design for Federated Learning 联邦学习激励机制设计综述

摘要: 联邦学习有望在不暴露原始数据的情况下实现大规模客户机学习。它不仅可以使客户保留隐私信息,而且可以实现较高的学习性能。现有的联邦学习研究主要集中在提高模型准确性和学习任务完成时间方面。然而,在实践中,客户不愿意在没有获得报酬的情况下参与学习过程。因此,如何有效地激励客户积极、可靠地参与联邦学习至关重要。与目前众包、云计算、智能电网等领域的激励机制设计相比,联邦学习的激励机制更具挑战性:首先,难以评估每个客户的培训数据价值;其次,很难对不同联邦学习算法的学习性能进行建模。在本文中,我们调查了联邦学习的激励机制设计。特别是,我们提出了联邦学习现有激励机制的分类,随后通过比较和对比不同的方法对其进行了深入讨论。最后,讨论了如何在联合学习中激励客户的一些未来方向。

1 Introduction

基于人工神经网络的机器学习[1]在计算机视觉、机器人学、人机游戏等领域取得了前所未有的成功。**为了获得更好的机器学习模型,需要将大量的训练数据输入机器学习模型。**然而,当前大多数培训数据都是由资源受限的设备(如平板电脑、智能手机等)生成的。由于有限的通信带宽和隐私问题,将如此大量的数据上传到云端进行集中的模型培训通常是不切实际的。

由于边缘计算[2]、[3]和分布式机器学习[4]的快速发展,人们提出了一种新的分布式机器学习范式,称为联邦学习[5],它可以让分布式边缘设备在不暴露原始数据的情况下协同训练机器学习模型。联邦学习通常采用参数服务器体系结构,其中客户端训练由参数服务器同步的本地模型。典型的联合学习过程包含多轮。在每一轮中,客户机从参数服务器下载新的机器学习模型,并分别使用自己的数据分多个阶段训练本地模型。然后,他们将新更新的模型上传到远程云中的服务器,该服务器创建了一个新的全球机器学习模型。联邦学习一经提出[6],就引起了学术界[7]、[8]、[9]、[10]、[11]和工业界[12]的广泛关注。Wang等人[7]提出了一种自适应的局部历元控制方法,用于每轮培训,因为客户资源有限。由于联邦学习系统容易受到恶意客户端的攻击,因此提出了一种新的模型聚合方法[10]来抵抗拜占庭式攻击。此外,跨客户端的非同分布(非IID)数据是联邦学习中的另一个关键挑战,它降低了基于SGD的训练方法的效率。为了应对非IID挑战,提出了模型平均和数据共享方法。McMahan等人[6]提出了基于迭代模型平均的联邦学习FedAVG方法。然而,对于高度倾斜的非IID数据,FedAVG的模型精度显著降低,MNIST高达11%,CIFAR-10高达51%,关键字定位数据集高达55%。现有的联邦学习算法主要使用梯度下降法来优化损失函数。然而,通过将上述结果纳入当前梯度更新,可能会加速收敛。在[13]中,Liu等人提出了在局部步长更新中使用动量梯度下降的动量联邦学习算法,该算法可以显著加快联邦学习的收敛速度。

上述联合学习系统严重依赖于客户机本地模型更新的质量。**然而,如果没有足够的补偿,客户可能不愿意参与并分享他们的模型更新。**事实上,参与联合学习任务会产生系统成本。例如,当客户机参与联合学习任务时,不可避免地会消耗其设备的资源,包括计算、通信和电池电量。此外,联邦学习框架仍面临各种安全风险。例如,Song等人[14]表明,训练数据的重要信息可以通过中间梯度推断出来。此外,一个奇怪的参数服务器可以通过生成性对抗网络学习客户训练数据的私有信息。由于这些风险,客户更不愿意参与联合学习任务,除非他们能获得足够的回报

因此,需要在联邦学习系统中引入奖励,因为:(i)参与联邦学习将导致计算资源消耗、网络带宽使用,并缩短客户的电池寿命,足够的奖励可以激励他们容忍这些成本并做出贡献;(ii)与基于云的分布式机器学习不同,参数服务器可以控制所有工人的行为,联合学习中的工人是独立的,只有他们的所有者可以决定何时、何地以及如何参与联合学习。因此,奖励可以用来以某种方式影响客户的决策。在不同的激励机制下,客户将执行不同的培训策略,从而影响最终的机器学习模型性能。在联邦学习系统中,有两个主要挑战:(i)如何评估每个客户的贡献,以及(ii)如何招募和留住更多客户。第一个挑战是从参数服务器的角度来看,由于不同的学习任务需要客户端在不同的训练数据上训练不同的机器学习模型,因此如何通过提供最低的奖励来获得更高的学习性能是一个挑战。第二个挑战来自客户的角度,也就是说,除非客户的担忧、需求和目标都得到满足,否则我们无法完全衡量为联合学习设计的激励机制的有效性。也就是说,如何提供公平、有利可图和安全的学习机会,以获得足够的客户参与。

我们调查了2017-2020年间联邦学习激励机制设计的相关工作。我们展示了由客户贡献、声誉和资源配置驱动的激励机制设计的最新研究成果。本文的其余部分组织如下:

  1. 我们从第二部分的调查背景开始,介绍联邦学习和激励机制是如何工作的。

  2. 在第三节中组织了由客户贡献驱动的不同激励机制。

  3. 第四部分介绍了现有的基于客户声誉的激励机制设计工作。

  4. 在第5节讨论如何激励客户在联合学习中分配更多资源。

  5. 最在第6节讨论了一些可能的未来方向

  6. 第7节得出了结论。

2 Background

在本节中,我们简要介绍联邦学习和激励机制的一些必要背景。

2.1 联邦学习

近年来,随着人工智能技术的发展和广泛应用,数据隐私保护越来越受到重视。数据收集过程必须在公司和机构之间公开透明,属于一个用户或公司的数据未经用户授权不得与其他人交换。这导致了海量数据以“数据岛”的形式出现,用户之间缺乏有效的沟通与合作,使得人工智能的成功实施遇到困难。

联邦学习的概念被提出,允许多个客户端通过迭代聚合模型更新来协作训练共享模型,而不暴露其原始数据。符合条件的客户端首先在参数服务器上注册。然后,参数服务器依次同步进行联邦学习。在每轮通信开始时,参数服务器首先将最新的全局模型分发给选定的客户端。然后,客户机在其本地数据集上训练模型,并将本地模型更新上传到参数服务器进行聚合。

请添加图片描述

联邦学习系统中培训过程的典型架构和工作流程如图1所示。通常,它包含联邦学习系统中的两个主要组件,即客户机/参与者(数据所有者)和参数服务器。我们将N={1,…,N}定义为N个客户机的集合,客户机i上的私有数据集表示为Di。Di中的数据样本可以用(xj,yj)表示,其中xj是样本j的输入/特征向量 j∈ Di和yj是对应的标签。每个客户机将使用自己的数据集Di来训练带有参数ωi的本地模型,并将本地模型参数而不是原始数据发送到参数服务器。从所有客户机接收本地模型参数后,参数服务器将其聚合以创建新的全局模型。在这种情况下,集中式服务器不需要将所有本地数据收集到像D=∪我∈N Di,这确保了隐私。为了方便起见,让f(xj,yj;ω)或fj(ω)表示样本j的损失函数。在这个框架中,数据所有者充当联合学习参与者,共同训练机器学习模型。更具体地说,联邦学习
培训过程可以概括为三个步骤:初始化、局部模型培训、全局聚合

第一步:初始化。参数服务器首先决定全局模型的体系结构,并根据训练任务随机或通过在公共数据集上预训练来初始化全局模型的参数。然后,参数服务器将初始全局模型参数ω0分配给选定的客户机。

第2步:本地模型培训:在第t轮通信回合中,每个选定的客户机使用其本地数据集,根据接收到的全局模型参数ωt更新本地模型 ω t i ω^i_t ωti。之后,更新的本地模型参数 ω t + 1 i ω^i_{t+1} ωt+1i将被发送到参数服务器。客户i在tth轮中的目标是基于本地数据集最小化经验损失F( ω t i ω^i_t ωti)

ω t i = arg ⁡ min ⁡ ω i F ( ω t i ) \boldsymbol{\omega}_{t}^{i}=\arg \min _{\boldsymbol{\omega}^{i}} F\left(\boldsymbol{\omega}_{t}^{i}\right) ωti=argωiminF(ωti)

F ( ω t i ) = 1 ∣ D i ∣ ∑ j ∈ D i f j ( ω t i ) F\left(\omega_{t}^{i}\right)=\frac{1}{\left|\mathcal{D}_{i}\right|} \sum_{j \in \mathcal{D}_{i}} f_{j}\left(\boldsymbol{\omega}_{t}^{i}\right) F(ωti)=Di1jDifj(ωti)

其中| Di |表示数据集Di中的样本数。

每个客户机中的更新过程可以通过执行随机梯度下降(SGD)来实现,并从其本地数据集中采样

ω t i = ω t i − η ∇ F ( ω t i ) \boldsymbol{\omega}_{t}^{i}=\boldsymbol{\omega}_{t}^{i}-\eta \nabla F\left(\boldsymbol{\omega}_{t}^{i}\right) ωti=ωtiηF(ωti)

∇ F ( ω t i ) \nabla F\left(\omega_{t}^{i}\right) F(ωti) 表示损失函数的梯度, η \eta η是学习率

步骤3:全局聚合:在每一轮中,参数服务器聚合来自选定客户端的本地更新参数,并用平均模型替换全局模型。然后将更新的全局模型参数ωt+1发送回选定的客户机。特别是,目标是最小化全局损失函数,其可表示为:

F ( ω t ) = 1 ∣ D ∣ ∑ i = 1 N ∣ D i ∣ F ( ω t i ) , i ∈ 1 , 2 , … , N F\left(\boldsymbol{\omega}_{t}\right)=\frac{1}{|\mathcal{D}|} \sum_{i=1}^{N}\left|\mathcal{D}_{i}\right| F\left(\boldsymbol{\omega}_{t}^{i}\right), i \in 1,2, \ldots, N F(ωt)=D1i=1NDiF(ωti),i1,2,,N

重复上述步骤,直到达到所需的精度。与传统的模型训练方法相比,联合学习具有以下优势:

  • 隐私保护:由于客户端的原始数据不需要发送到服务器,因此可以保证客户端的隐私。从长远来看,保证隐私可以吸引更多参与者加入协作模型训练过程,从而进一步提高机器学习模型的性能。

  • 高效的资源利用率:在联合训练中,只需要将更新传输到参数服务器,这减少了总的通信开销。此外,通过增加每个客户机上的计算量,每个客户机在每轮培训之间执行具有更多时间段的本地培训,可以有效地利用通信资源。

  • 更低的推理延迟:通过联合学习,每个客户端都可以在本地一致地训练和更新机器学习模型。更新后的模型可用于在客户端自己的设备上进行预测。与传统的集中式服务器决策方法相比,本地决策具有更低的延迟

2.2 激励机制

激励的定义是激励个人做一些具体的行动。激励是所有经济活动的核心,无论是在个人决策方面,还是在更大的制度结构内的合作与竞争方面。激励可分为积极激励和消极激励。积极激励通过承诺奖励来激励他人,而消极激励则通过惩罚个人来避免恶意行为。

利用博弈论设计激励机制在其他领域也得到了广泛研究,如群智感知[15],边缘计算[16]等。Yang等人[15]分别利用Stackelberg博弈和拍卖方法研究了以平台为中心和以用户为中心的众包。[17]中的作者提出了激励机制,以激励用户使用设备间通信。他们考虑两个不同的市场,一个是开放市场,用户拥有所有用户的信息,另一个是用户只拥有自己信息的封闭市场。在[18]中,詹等展示了机会主义网络激励机制的有效性,并分别设计了在线和离线方法。作为上述工作中的激励机制设计,可以精确地建立每个参与者的效用模型,然后应用博弈论分析每个参与者的行为。**在联邦学习中,如何量化每个客户的培训数据的价值是一个挑战。**同时,由于联邦学习算法的复杂性,对联邦学习系统的最终学习性能进行建模具有挑战性。因此,很难对联邦学习中每个参与者(参数服务器和客户机)的效用函数进行建模,这使得现有的激励机制设计工作无法直接应用。

3 客户数据贡献驱动的激励机制设计

在这里插入图片描述

在联合学习中,许多数据所有者可能不会积极参与共享模型的培训,尤其是当数据所有者是企业而不是个人时。如图2所示,当参与者使用本地数据集参与联合学习时,他们往往会获得一些收入。因此,有必要评估不同数据提供者的贡献,以便适当分配学习系统获得的利润。合理的贡献评估标准可以进一步吸引更多参与者加入激励机制。许多文献关注于根据客户的贡献设计联合学习的激励机制,这可以概括为两类:数据质量和数据数量。表1列出了本主题的相关工作。

在这里插入图片描述

3.1 数据质量

如何评估数据价值是组织和个人提出的一个越来越普遍的问题。Shapley值在该领域得到了广泛应用[28]。Sim等人[29]研究如何评估每个客户的培训数据,并基于Shapley值设计一个激励感知奖励方案,为每个客户提供一个定制的机器学习模型作为奖励,而不是金钱补偿。虽然机器学习市场的激励机制已经深入研究了如何评估每个客户的培训数据,但它没有考虑培训成本,不能直接应用于联合学习

在联合学习中,为了用高质量的数据吸引客户,Song等人[19]提出了一种高效、有效的指标,称为基于Shapley值的贡献指数,以评估不同客户在联合学习中的贡献。为了计算不同客户的贡献指数,需要对具有不同训练数据集组合的机器学习模型进行训练和评估。因此,它将消耗大量的时间和精力,这几乎是不可能的。为了克服这个问题,作者通过联邦学习的中间结果,在不同的训练数据集组合上近似地重构模型,以避免额外的训练。

拍卖机制也被应用于联邦学习中。由于不同客户端之间存在不断扩大的资源差距,这种差距可能会严重影响联合学习的性能。曾等人(22)考虑了联邦学习中多维和动态的边缘资源,并提出了一种新的联邦学习的多维激励框架。他们使用博弈论为每个客户机导出最优策略,并利用预期效用引导参数服务器选择最优客户机来训练机器学习模型。

在移动群智感知中,客户可能没有足够的训练数据来构建高效的机器学习模型。[21]中的作者提出了一种基于联邦学习的隐私保护方法,以促进客户端之间的合作机器学习。客户和用户(收集培训数据)之间以及客户之间的激励不匹配存在两个主要挑战。作者提出了一种多客户场景下的分层激励机制架构。他们利用契约理论建立客户和用户之间的激励机制,并利用联盟博弈理论根据客户的边际贡献来奖励客户。采用逆向归纳法,首先解决合同的制定问题,然后解决条件博弈问题。

在联邦学习中,机器学习模型的训练和商业化需要时间。因此,在参数服务器能够偿还客户端之前会有延迟。在上述工作中,没有研究奖励与客户贡献之间的这种不匹配。为了实现长期的系统性能,并用高质量的数据吸引更多的客户,Yu等人提出了一个公平的激励方案,联邦学习激励器(FLI),以避免联邦学习培训过程中的不公平待遇[20]。FLI可以根据三个标准动态调整客户的贡献,以使贡献与奖励相匹配。理论分析和广泛评估表明,FLI可以产生接近最优的效用,并最小化客户之间的不平等。

联邦学习 — 激励机制 - 知乎 (zhihu.com)

3.2 数据数量

由于学习模型的准确性与培训样本的大小有关[23],[33],有几项工作采用培训数据量来衡量客户的贡献。

博弈论是分析联合学习中多个参与者的动机及其行为的有力工具。Zhan等人提出了一种基于游戏的联合学习平台激励机制,该平台将分布式深度学习和众感知结合起来,用于移动客户端的大数据分析[23]。平台首先发布一个任务并发布相应的奖励。为了使自身效用最大化,每个移动客户端都会考虑其获得的奖励和能源成本,从而决定其参与程度,即培训数据的数量。移动客户的决策问题被描述为一个非合作博弈,以实现纳什均衡。此外,Zhan等人将博弈论和深度强化学习(DRL)相结合,提出了一种基于DRL的联邦学习激励机制[24],[25]。为了激励客户参与模型培训,本文将参数服务器和客户之间的交互描述为Stackelberg博弈。在游戏中,参数服务器发布训练任务,并作为领导者宣布总奖励,然后客户机作为追随者决定收集的数据量。提出了一种基于DRL的激励机制,以实现隐私保护和动态环境下的均衡。具体来说,parameter server充当DRL代理来决定最佳支付,而无需准确评估每个客户的贡献并提前获取他们的私人信息。

与上述基于非合作博弈论的方法[23]、[24]、[25]不同,Ding等人提出了一种多维契约理论方法,在存在客户多维私人信息(包括培训成本和通信延迟)的情况下设计参数服务器的最优激励机制[34]、[35]。他们在完全信息、弱不完全信息和强不完全信息三种不同的信息场景下进行分析,以揭示信息不对称对参数服务器激励机制设计的影响。

在激励机制的安全性方面,一些联邦学习工作采用区块链技术来记录客户的训练,并使用加密货币奖励他们。Weng等人[20]设计了一个协助训练框架,其中客户共同参与深度学习模型培训。每个客户端的本地梯度是在区块链中共享形式。然后,工人们收集和验证交易内容,每个交易内容中都包含一个本地梯度,并将它们打包成块。提出了一种具有兼容性和行为特性的激励机制,根据客户处理的数据量和诚实行为来奖励客户。如果多个客户端中止训练或将格式错误的参数发送到参数服务器,则联邦学习可能会失败。这种错误行为不可审核,参数服务器可能由于单点故障而计算错误。

在审计客户端的模型方面,Bao等人[21]提出FLChain从信任和激励机制的角度建立一个分散、公共可审计联邦学习系统。在FLChain中,诚实的客户可以通过训练好的模型获得相当多的分区利润,恶意的客户可以被及时发现并受到严厉的惩罚。

4 客户声誉驱动的激励机制设计

请添加图片描述

请添加图片描述

声誉是联盟学习过程中客户选择的一个重要指标。声誉较高的客户更有可能为联合学习任务提供高质量、可靠的培训。如图3所示,在每个培训任务结束时,根据客户的行为更新客户的声誉,然后在下一次培训中选择客户时考虑声誉记录。表2总结了本主题的相关工作。

Zhao等人提出了一个基于区块链的信誉系统,用于家电制造商的联合学习,以训练基于客户数据的机器学习模型[30]。一开始,每个客户在区块链中记录的声誉价值相等。当客户提供正确且有用的模型参数时,其声誉会增加;当客户上传恶意模型参数时,其声誉会降低。对于声誉较高的客户,他在下一次培训任务中被选中的机会更大。

与[30]中只有客户(客户)有信誉记录不同,Rehman等人提出了一个基于区块链的信誉系统,在该系统中,所有三种参与者,即边缘设备、雾节点和云服务器,都可以相互评分[31]。具体来说,边缘设备可以在向fog节点和云服务器请求模型参数后对它们进行分级。同样,fog节点可以根据其数据丰富性、上下文感知等对连接的边缘设备进行分级。云服务器可以根据其参与度、主动性、共享意愿等对fog节点和边缘设备进行分级。系统通过智能合约聚合、计算和记录联合学习中每个参与者的声誉。通过声誉感知激励机制,参与者可以从诚实和高质量的行为中受益,从而促进联盟学习的健康发展。

以上两项工作有两个不足之处。首先,评分机制过于主观,缺乏质量评估方案。其次,每个参与者只有一个分数,很容易受到恶意评分者的影响。Kang等人提出了一个基于区块链的信誉系统,用于可靠的联合学习[32]。任务发布者在IID场景中使用RONI方案,在非IID场景中使用Goodsgold方案,检测攻击者和不可靠的客户端。根据检测结果,发布者可以更新其交互客户端的声誉。对于每个客户,为了结合和关联所有任务发布者给出的不同分数,其综合声誉价值将通过多权重主观逻辑模型生成。

TODO

5 客户资源配置驱动的激励机制设计

联邦学习是一种分布式机器学习框架,通常由一个参数服务器和一群不同的客户端组成,例如个人计算机、智能手机、可穿戴设备等。这些设备之间的异构性使得联邦学习培训过程受到不同的资源约束,包括带宽、存储和能量。因此,如图4所示,如何为不同客户之间的资源分配设计激励机制变得至关重要。在接下来的部分中,我们将重点讨论联邦学习的两种资源分配:计算资源和通信资源。表3列出了相关工作。
请添加图片描述
请添加图片描述

5.1 Computational resource 计算资源

在计算资源方面,Sarikaya等人首先分析了异构客户端对联邦学习收敛的影响,在此基础上,他们提出了一种激励机制来平衡每次迭代的时间延迟[36]。更具体地说,parameter server的预算有限,并在客户机之间分配预算,以激励客户机贡献其CPU能力,并以目标精度实现快速收敛。他们提出了一个Stackelberg博弈,通过优化客户端之间的计算资源分配策略以及参数服务器的预算分配来提高其性能。Khan等人[37]还利用Stackelberg博弈制定了激励机制,以激励客户参与联合学习。然而,他们更关注在网络边缘实现联合学习。

TODO

与上述基于博弈的方法不同,Zhan等人提出了一种基于DRL的方法来设计激励机制,并在动态网络环境下找到模型训练时间和参数服务器支付之间的最佳权衡[39]。由于联邦学习算法的复杂性和动态学习环境的限制,传统的理论分析方法不适用于此,难以寻求最优解。相反,DRL方法可以通过在之前的培训过程中积累的经验来改进其当前策略,因此从经验上使当前策略接近最优解。

5.2 Communication resource 通信资源

还有一些其他的工作集中在通信资源分配上。Le等人[40]将基站和客户之间的激励机制描述为一种拍卖游戏,其中基站是拍卖商,客户是卖家。对于客户端,它采用最优的通信资源分配策略,在满足联邦学习延迟约束的同时,使能量消耗最小化。对于基站,拍卖博弈中的客户选择问题被描述为社会福利最大化问题,这是一个NP难问题。然后提出了一种求解NP难问题的原始-对偶贪婪算法。同时,也证明了该拍卖机制的真实性和个体合理性

与上述工作类似,Pandey等人通过构建一个考虑模型参数交换期间通信效率的通信效率成本模型,提出了一个新的众包平台[38]。激励机制是一种基于价值的薪酬策略,例如奖金,它与联合学习参与程度成正比。采用两阶段Stackelberg博弈方法求解双方利益最大化的初始优化问题。此外,他们还为客户提供准入控制方案,以确保一定程度的本地准确性。

6 未来方向

联邦学习的激励机制设计尚处于起步阶段。需要做更多的工作来保证足够数量的客户机用于快速增长的机器学习应用。在本节中,我们将讨论关于联邦学习激励机制的三个可能的未来方向,即多方联邦学习、激励驱动的联邦学习和安全的联邦学习。

6.1 Multi-party 联邦学习的激励机制

在目前的工作中,我们可以发现只有一个联邦学习任务发布者和多个客户端。任务发布者通过奖励激励客户参与联合学习。与此架构不同,在多方机器学习中,一组各方合作优化自己的更好模型[41],[42]。为了使多方机器学习实用化,许多工作都集中在保护数据隐私[43]、[44]和学习过程中的学习性能上。然而,作为主要关键问题之一的激励机制在以前的工作中被忽视,这将显著降低该技术在实践中的有效性[45]。以前的工作通常允许各方共享相同的全局机器学习模型,而不考虑各方各自的贡献。只有当各方之间没有冲突时,这一机制才能很好地发挥作用。例如,Gmail希望利用用户的体验数据来提高他们的工作效率。在这种情况下,所有用户都乐于毫无保留地贡献他们的数据,因为他们都可以从这些改进中受益,并且用户之间没有冲突。

请添加图片描述

TODO: 当双方相互竞争时,他们可能不愿意参与联合学习,因为其他竞争对手也可以从他们自己的贡献中受益。例如,当来自同一领域的多家公司试图采用联合学习来提高其服务质量时。在这种情况下,提高别人的质量可能会损害自己的市场份额,尤其是对于拥有大量高质量数据的大公司。各方之间的这种合作和竞争关系构成了一个有趣的挑战,阻碍了多方学习方法在更广泛的环境中的应用。其中一个可能的解决办法是使用激励机制。如图5所示,客户端A对联合学习的贡献较低,而客户端B的贡献较高。在这种情况下,为了获得更高的服务质量,客户机A希望参与联合学习。然而,为了确保市场份额,客户B不想参与其中。通过激励机制,客户A可以通过向系统支付奖励来参与联合学习。然后,系统可以通过向客户B支付奖励来激励客户B参与联合学习。最近,Chen[45]设计了准单调效用设置下的最优真实机制,这为多方联合学习提供了一个起点。我们相信将在这方面开展更多的研究工作

6.2 激励驱动的联邦学习

目前的工作是基于联邦学习的训练模式,但它们并没有真正与联邦学习算法相结合。例如,现有的工作假设,在每一轮培训中,客户将在每一轮培训中培训具有相同本地时代的本地机器学习模型[25]、[26]、[39]。因此,激励机制只能激励客户参与联邦学习,而不能调整学习算法。

请添加图片描述

如图6所示,我们可以通过仔细控制本地记录的数量来调整联邦学习算法。通过学习策略A,参数服务器在每轮训练中给客户端的钱更少,然后客户端用更少的局部时间训练局部机器学习模型,并获得更少的模型精度改进。通过学习策略B,参数服务器在每轮培训中为客户提供更多的资金,以驱动他们训练具有更多本地时代的机器学习模型,这使得模型的精度得到了更高的提升。在学习策略A中,客户使用较少的本地时间来训练本地机器学习模型,但使用更多的训练轮。然而,学习策略B却恰恰相反。**同时,一些事实表明,通信成本在联邦学习的开销中占主导地位。**尽可能减少交流轮数是联合学习的基本要求。因此,很难判断学习策略A是否比策略B更好。如何用激励驱动的方法小心地控制本地时段的数量不仅困难,而且具有挑战性。我们相信,通过仔细设计激励机制,联邦学习系统可以获得一个非常好的机器学习模型。目前还没有这方面的工作,我们相信未来会有更多的研究人员参与。

6.3 安全

请添加图片描述

尽管有许多工作集中于联邦学习的激励机制设计,但他们并不考虑其中的一个关键问题,即安全性。考虑到客户端在联合学习期间可能有恶意行为的情况。他们可能会随意选择输入,从而产生错误的梯度,目的是误导联邦学习过程。如图7a所示,有两种方法可以生成错误的梯度:一种是将中毒数据注入训练数据,另一种是上传中毒模型。有了这两种攻击,联合学习就会产生偏差。如图7b所示,还有另一种恶意行为。为了节省资源,客户可以用较少的训练数据训练本地机器学习模型,从而提前中止本地训练。这样一来,客户对联邦学习系统的贡献就会减少,因此[25]、[26]、[39]中设计的方法不仅会浪费更多的资金,而且会产生质量较低的模型。

联邦学习系统容易受到攻击,这将严重降低系统性能。为了保持联邦学习系统的良好生态环境,可以采用激励机制。通过激励机制,我们可以惩罚恶意客户,从而降低他们作恶的概率。这是一个新的但非常重要的方向,我们相信这是一个非常有希望的方向

7 Conclusion 结论

激励机制是新型联邦学习系统的关键设计元素。在这项工作中,我们广泛调查了最先进的方法,并开辟了一些有趣的未来研究方向。首先,我们首先介绍联邦学习和激励机制的工作原理。然后,我们对联邦学习激励机制设计中出现的实施挑战的解决方案进行了详细的回顾、分析和比较。这些问题包括模型贡献、客户声誉和资源分配。 最后,我们提出了一些有趣的未来研究方向,包括多方联合学习的激励机制设计、激励驱动的联合学习以及激励机制的安全保障

总之,激励在联邦学习系统中起着至关重要的作用,因为它们为系统提供足够数量的客户端,从而使联邦学习系统能够实际工作。随着机器学习应用的迅速普及,开发高效的联邦学习激励机制是一个新的充满活力的领域。通过这次调查,我们期望越来越多的研究人员致力于这一领域。

References

猜你喜欢

转载自blog.csdn.net/RenLJ1895/article/details/123977389