摘要：

联邦学习涉及在大规模异构网络中训练统计模型。在这样的网络中，天真地最小化总损失函数可能会不成比例地对某些设备有利或不利。在这项工作中，我们提出了q-Fair联邦学习(q-FFL)，这是一种新的优化目标，受到无线网络中公平资源分配的启发，它鼓励联邦网络中设备之间更公平(具体地说，更统一)的准确性分布。为了解决q-FFL问题，我们设计了一种适用于联邦网络的通信高效方法q-FedAvg。我们在一组具有凸和非凸模型的联邦数据集上验证了q-FFL的有效性和q-FedAvg的效率，并表明q-FFL(连同q-FedAvg)在由此产生的公平性、灵活性和效率方面优于现有基线。

- 引言

联邦学习是一种很有吸引力的范例，可以将模型拟合到由远程设备网络生成并驻留在其中的数据上(McMahan等人，2017)。不幸的是，在一个大型网络中天真地最小化总损失可能会不成比例地使某些设备上的模型性能受益或不利。例如，尽管平均来说准确率可能很高，但对于网络中的单个设备并没有精度保证。联邦网络中的数据通常在大小和分布方面都是异构的，因此模型性能可能有很大差异，这加剧了这种情况。因此，在这项工作中，我们要问:我们能否设计一种有效的联邦优化方法，以鼓励在联邦网络中的设备之间更公平(即更均匀)地分布模型性能?

最近，人们对开发机器学习的公平方法产生了极大的兴趣(例如，Cotter等人，2019;Dwork等人，2012)。但是，目前的方法不能充分解决联邦设置中的问题。例如，公平性文献中的一个常见定义是强制保护组之间的准确性相等1 (Zafar et al.， 2017a)。然而，对于大型联邦网络中的设备来说，考虑到网络中数据的显著可变性，在每个设备上保持相同的准确性是没有意义的。最近的工作通过引入良好意图的公平性向解决这一问题迈出了一步，其目标是确保训练过程不会以牺牲另一个设备为代价，将模型过度拟合到任何一个设备上(Mohri等人，2019)。然而，提出的目标是严格的，因为它只最大化性能最差的设备/组的性能，并且只在小型网络中进行了测试(针对2-3个设备)。在现实的联邦学习应用程序中，很自然地会寻求能够在网络中的总体性能和公平性之间灵活权衡的方法，并且可以在数百到数百万台设备上大规模实现。

在这项工作中，我们提出了q-FFL，一种新的优化目标，用于解决联邦学习中的公平性问题。受到无线网络公平资源分配工作的启发，q- ffl最小化了以q为参数的总重加权损失，这样损失较高的设备就被赋予了较高的相对权重。我们表明，这个目标鼓励设备级定义联邦设置中的公平性，它通过测量设备之间性能的均匀程度来概括标准精度平价。作为一个激励的例子，我们来研究一下这个测试通过基线方法(FedAvg)训练的模型与图1中的q-FFL的精度分布。由于不同设备的数据存在差异，一些设备上的模型精度相当差。通过使用q-FFL，我们可以保持相同的整体平均精度，同时确保整个网络的服务质量更加公平/统一。自适应最小化我们的q-FFL目标的结果是一个灵活的框架，可以根据所需的公平性进行调整。

图1:联邦网络中的模型性能(例如，测试精度)在不同设备之间可能有很大差异。我们的目标q-FFL旨在增加模型性能的公平性/均匀性，同时保持平均性能。

为了解决大规模联邦网络中的q-FFL问题，我们另外提出了一种轻量级且可扩展的分布式方法q-FedAvg。我们的方法仔细考虑了联邦设置的重要特征，如通信效率和设备的低参与度(Bonawitz等人，2019;McMahan等人，2017)。该方法还通过动态估计与不同q值相关的步长，减少了q- ffl中超参数q的调优开销。

通过在凸模型和非凸模型的联邦数据集上的大量实验，我们证明了q-FFL的公平性和灵活性，以及q-FedAvg与现有基线相比的效率。在公平性方面，q-FFL能够在保持相同的总体平均准确度的情况下，将设备之间的准确度方差平均降低45%。在效率方面，我们的分布式方法q-FedAvg能够比其他基线更快地求解所提出的客观数量级。最后，虽然我们主要在联邦学习上下文中考虑我们的方法，但我们也证明了q-FFL可以应用于其他相关问题，如元学习，有助于跨多个任务产生公平的初始化。

- 相关工作

资源分配公平。公平资源分配已经在网络管理等领域进行了广泛的研究(Ee & Bajcsy, 2004;Hahne, 1991;Kelly et al.， 1998;Neely et al.， 2008)和无线通信(Eryilmaz & Srikant, 2006;Nandagopal等人，2000;Sanjabi等人，2014;Shi et al.， 2014)。在这些上下文中，问题被定义为在许多用户之间分配稀缺的共享资源，例如通信时间或功率。在这些情况下，直接最大化效用(如总吞吐量)可能会导致不公平的分配，其中一些用户获得较差的服务。作为服务提供者，在保持整体吞吐量的同时提高所有用户的服务质量是很重要的。出于这个原因，人们提出了几种流行的公平性度量来平衡公平性和总吞吐量，包括Jain指数(Jain et al.， 1984)、熵(Rényi et al.， 1961)、max-min/min-max公平性(Radunovic & Le Boudec, 2007)和比例公平性(Kelly, 1997)。通过α-公平捕获统一框架(Lan et al.， 2010;Mo & Walrand, 2000)，其中网络管理员可以通过改变一个参数α来调整对公平的重视。

为了在联邦学习和资源分配问题之间进行类比，可以将全局模型视为旨在为用户(或设备)服务的资源。从这个意义上讲，自然会对用户所接受的服务的公平性提出类似的问题，并使用类似的工具来促进公平性。尽管如此，我们还没有发现任何利用资源分配中的α-公平来修改机器学习目标的研究。受α-公平度量的启发，我们提出了一个类似的修改目标，q-Fair联邦学习(q-FFL)，以鼓励在联邦训练的背景下在设备之间进行更公平的准确性分布。类似于α-公平性度量，我们的q- ffl目标足够灵活，可以通过改变参数q来实现公平性和其他传统度量(如准确度)之间的权衡。在第4节中，我们通过经验证明，在联邦学习中使用q- ffl作为目标可以在设备之间实现更均匀的准确度分布——在保持平均准确度的同时显著降低方差。

机器学习中的公平性。公平是一个广泛的话题，在机器学习社区受到了广泛的关注，尽管其目标通常与本文所描述的不同。的确，机器学习中的公平性通常被定义为对某些特定属性的保护。两种常见的方法是预处理数据以删除有关受保护属性的信息，或在分类器训练后通过调整预测阈值对模型进行后处理(Feldman, 2015;哈特等人，2016;Calmon等人，2017)。另一组工作在训练时间内优化了一些公平约束的客观主体(Agarwal等人，2018;Cotter等人，2019年;桥本等人，2018;伍德沃斯等人，2017;Baharlouei等人，2020;Zafar et al.， 2017a;b;Dwork等人，2012)。我们的工作还在训练期间强制执行公平性，尽管我们将公平性定义为联邦学习中跨设备的准确性分布的一致性(第3节)，而不是对特定属性的保护。尽管一些作品将准确性均等定义为在特定群体中强制执行相同的错误率作为公平的概念(Zafar等人，2017a;Cotter等人，2019)，联邦网络中的设备可能不会按受保护的属性进行分区，我们的目标不是在所有设备上优化相同的准确性。Cotter等人(2019)使用了“最低准确度”的概念，这在概念上与我们的目标相似。但是，它要求每个设备都有一个优化约束，这将导致联邦网络中存在数亿个约束。

在联邦设置中，Mohri等人(2019)最近提出了一种极大极小优化方案，即不可知论联邦学习(AFL)，该方案优化了单个最差设备的性能。这种方法只应用于小范围(少数设备)。与AFL相比，我们提出的目标更灵活，因为它可以根据所需的公平性进行调整;AFL实际上可以被视为我们的目标q- ffl的一个特例，q足够大。在第4节中，我们证明了我们的目标的灵活性导致了比AFL更有利的准确性与公平性权衡，并且q- ffl也可以更有效地大规模求解。

联合优化。联邦学习面临的挑战包括昂贵的通信、硬件或网络连接方面的系统环境的变异性，以及跨设备的非相同分布的数据(Li等人，2019)。为了减少通信和容忍异构，必须开发优化方法，以允许设备之间的本地更新和低参与度(McMahan等人，2017;史密斯等人，2017)。在设计方法以在联邦设置中有效地解决q-FFL目标时，我们结合了这些关键成分(第3.3节)。

- 公平联邦学习

在本节中，我们首先正式定义了经典的联邦学习目标和方法，并介绍了我们提出的公平性概念(第3.1节)。然后我们引入q-FFL，这是一个新的目标，鼓励在所有设备上进行更公平(均匀)的精度分布(第3.2节)。最后，在3.3节中，我们描述了q-FedAvg，这是一种在联邦设置中解决q-FFL目标的有效分布式方法。

3.1、初步介绍:联邦学习、fedavg和公平性

联邦学习算法涉及数亿个远程设备在其设备生成的数据上进行本地学习，并定期与中央服务器通信以达成全球共识。具体来说，目标通常是解决:

大多数先前的工作都是通过在每轮中以pk的概率对设备子集进行采样来解决(1)，然后在每个设备上运行随机梯度下降(SGD)等优化器来进行可变次数的迭代。与传统的小批处理方法相比，这些本地更新方法能够实现灵活高效的通信，后者只需要计算梯度的子集(Stich, 2019;Wang & Joshi, 2018;伍德沃斯等人，2018;Yu等人，2019)。FedAvg (McMahan et al.， 2017)，在附录C.1的算法3中总结，是非凸设置中求解(1)的主要方法之一。该方法只需让每个选定的设备在本地应用SGD的E epoch，然后对得到的局部模型求平均即可。

不幸的是，以这种方式解决问题(1)可能会隐式地在不同设备之间引入高度可变的性能。例如，学习的模型可能偏向于具有较大数据点的设备，或者(如果对设备进行相等的加权)偏向于常见的设备。更正式地说，我们将在下面定义联邦学习所需的公平标准。

定义1(绩效分配的公平性)。对于训练过的模型w和~ w，我们非正式地说，模型w提供了一个更公平的解决联邦学习目标(1)比~ w，如果模型w在m个设备上的性能，{a1，…Am}，在m器件上比模型~ w的性能更均匀。

在这项工作中，我们将' performance ' ak作为将训练过的模型w应用于设备k的测试数据上的测试精度。有许多方法可以从数学上评估性能的均匀性。在这项工作中，我们主要使用性能分布的方差作为均匀性的衡量标准。然而，在附录A.1中，我们也从经验和理论两方面探讨了其他一致性度量。我们注意到，最终测试精度的公平性/统一性和跨设备的平均测试精度之间存在紧张关系。总的来说，我们的目标是在保持相同(或相似)的平均准确度的同时，增加公平性/统一性。

备注2(与其他公平性定义的关联)。定义1针对的是设备级公平性，它比经典的属性级公平性(如精度奇偶)具有更细的粒度(Zafar等人，2017a)。我们注意到，在某些情况下，设备可以自然地聚集到具有特定属性的组中，我们的定义可以被视为准确性平价的放松版本，因为我们优化了设备之间相似但不一定相同的性能。

3.2目标:q-FAIR联邦学习(q-FFL)

实现(1)中定义的公平性的一个自然想法是重新加权目标——为性能较差的设备分配更高的权重，以便网络中的准确性分布朝着更均匀的方向转移。请注意，这种重新加权必须动态地完成，因为设备的性能取决于正在训练的模型，而模型不能先验地评估。从无线网络中用于公平资源分配的效用函数α-fairness中得到启发，我们提出了以下目标。对于给定局部非负代价函数Fk和参数q >0，我们将q-Fair联邦学习(q-FFL)目标定义为:

其中Fk q+1(·)表示Fk(·)的(q+1)次方。这里，q是调整我们希望施加的公平量的参数。设置q = 0并不鼓励超越经典联邦学习目标(1)的公平性。更大的q意味着我们强调具有更高局部经验损失Fk(w)的设备，从而对训练精度分布施加更多的一致性，并可能根据定义1诱导公平性。设置足够大q的fq(w)可以简化为经典的极大极小公平性(Mohri等人，2019)，因为性能最差(损失最大)的设备将主导目标。我们注意到，虽然(2)中分母中的(q+1)项可能在pk中被吸收，但我们将其纳入α-公平文献中，因为它是标准的，有助于简化符号。为了完整起见，我们在附录B中提供了关于α-公平的额外背景。

如前所述，q- ffl概括了公平联邦学习(AFL)中的先前工作(Mohri等人，2019)，允许在q参数化的公平性和准确性之间进行灵活的权衡。在我们的理论分析(附录a)中，我们提供了q- ffl的泛化边界，泛化AFL目标的学习边界。此外，基于我们的公平性定义(定义1)，我们从理论上探索了q- ffl如何随着q的增加而产生更均匀的精度分布。我们的结果表明，q- ffl能够根据方差和其他几何和信息论度量等各种度量来强制测试精度分布的“均匀性”。

在我们的实验(第4.2节)中，在凸和非凸模型上，我们表明使用q-FFL目标，我们可以在训练和测试精度分布方面为联邦数据集获得更公平/更均匀的解决方案。

3.3求解器:FEDAVG-STYLE q-FAIR联邦学习(q-FE DAVG)

在开发公平联邦学习的函数方法时，不仅要考虑要解决什么目标，还要考虑如何在大规模分布式网络中有效地解决这样的目标。在本节中，我们将提供求解q-FFL的方法。我们从一个更简单的方法q-FedSGD开始，以说明我们的主要技术。然后，通过考虑局部更新方案，我们提供了一个更有效的对应方案q-FedAvg。我们提出的方法紧密地反映了传统的分布式优化方法-小批量SGD和联邦平均(FedAvg) -但步长和子问题是根据q-FFL问题(2)精心选择的。

实现可变级别的公平性:调优q。在设计解决q- ffl(2)的方法时，我们首先注意到，首先确定如何设置q是至关重要的。在实践中，q可以根据所需的公平性进行调优(更大的q会带来更多的公平性)。正如我们在实验(第4.2节)中所描述的，因此，为不同的q值训练一系列目标是很常见的，这样从业者就可以探索手头应用程序的准确性和公平性之间的权衡。

解决这类目标家族的一个问题是，它需要对每个q值进行步长调整。特别是，在基于梯度的方法中，步长反依赖于函数梯度的利普希茨常数，它会随着我们改变q而改变。这可能很快导致搜索空间爆炸。为了克服这个问题,我们提出估算局部李普希茨常数q-FFL家庭的目标通过使用李普希茨常数,我们推断出通过调优步长(通过网格搜索)只有一个q(例如,q = 0)。这使我们能够基于动态地调整我们的步长梯度优化方法q-FFL客观,避免手工调优为每一个引理3 q。下面我们形式化李普希茨常数之间的关系,L, q = 0和q比;0.

第一种方法:q-FedSGD。我们的第一个公平联邦学习方法q-FedSGD是著名的联邦迷你批SGD (FedSGD)方法的扩展(McMahan et al.， 2017)。q-FedSGD使用动态步长，而不是FedSGD通常的固定步长。根据引理3，对于每个局部器件k，局部Lipschitz常数的上限为LFk(w) q + qFk(w) q−1k∇Fk(w)k 2。在q-FedSGD的每一步中，在当前迭代中计算每个选定设备k上的∇Fk和Fk，并将其传递给中心节点。此信息用于计算组合来自每个设备的更新的步长(权重)。具体细节在算法1中总结。注意q-FedSGD在q = 0时被简化为FedSGD。同样重要的是，要使用不同的q值运行q- fedsgd，我们只需要在q = 0时通过调整步长来估计L一次，然后可以重用它用于所有的q &gt值;0.

提高沟通效率:q-FedAvg。在联邦环境中，使用局部随机求解器(如FedAvg)的通信高效方案已被证明可以显著提高收敛速度(McMahan等人，2017)。然而，当q >0，由于q+1指数，Fk q+1项不是所有局部样本损失的经验平均值，因此不能像FedAvg中那样使用局部SGD。为了解决这个问题，我们建议将FedAvg推广到q >0使用更复杂的动态加权平均方案。权值(步长)由Fk q+1梯度的局部Lipschitz常数的上界推断出来，类似于q- fedsgd。为了将FedAvg的局部更新技术扩展到q- ffl目标(2)，我们提出了一种启发式方法，将q- fedsgd步骤中的梯度∇Fk替换为通过在设备k上本地运行SGD获得的局部更新。类似地，q-FedAvg在q = 0时被简化为FedAvg。我们在算法2中提供关于q-FedAvg的更多细节。正如我们将从经验中看到的，由于局部更新启发式，q-FedAvg可以比q-FedSGD更有效地解决q-FFL目标。最后，回想一下q→∞时q- ffl目标恢复到AFL目标。然而，我们从经验上注意到q-FedAvg具有比AFL更有利的收敛速度，同时在设备间的性能相似(参见附录中的图9)。

图9:q-FFL比AFL更有效。当最差的设备达到相同的最终测试精度时，q-FFL比AFL收敛得更快。对于Vehicle(拥有23个设备)，与Fashion MNIST(拥有3个设备)相比，我们看到性能差距更大。对于这两种方法，我们每一轮都运行完全梯度下降。。

- 评估

我们现在提出了提出的目标q-FFL的经验结果，以及提出的方法q-FedAvg和q-FedSGD。我们在第4.1节中描述了我们的实验设置。然后，我们在第4.2节中演示了q-FFL的改进公平性，并在第4.3节中将q-FFL与几个基线公平性目标进行了比较。最后，我们在章节4.4中展示了q-FedAvg与q-FedSGD相比的效率。所有的代码、数据和实验都可以在github.com/litian96/fair_flearn上公开获取。

4.1实验设置

联邦数据集。我们在实验中使用凸和非凸模型探索了一套联邦数据集。这些数据集是从联邦学习的先前工作中挑选出来的(McMahan等人，2017;史密斯等人，2017;Li et al.， 2020;Mohri等人，2019)以及最近的联邦学习基准(Caldas等人，2018)。具体来说，我们研究:(1)使用线性回归分类器的合成数据集，(2)从分布式传感器网络(Duarte & Hu, 2004)收集的车辆数据集，使用线性支持向量机进行二进制分类，(3)从Sentiment140 (Go等人，2009)(Sent140)整理的推文数据，使用LSTM分类器进行文本情感分析，以及(4)构建的文本数据摘自《莎士比亚全集》(McMahan et al.， 2017)和RNN来预测下一个角色。在与AFL进行比较时，我们使用了Mohri等人(2019)研究的两个小型基准数据集(Fashion MNIST (Xiao et al.， 2017)和Adult (Blake, 1998))。在将q-FFL应用于元学习时，我们使用了通用的元学习基准数据集Omniglot (Lake et al.， 2015)。完整的数据集细节在附录D.1中给出。实现。我们在Tensorflow (Abadi et al.， 2016)中实现所有代码，模拟一个具有一台服务器和m个设备的联邦网络，其中m是数据集中设备的总数(附录D.1)。我们在附录D.2中提供了完整的细节(包括所有超参数值)。

4.2 q-FFL的公平性

在我们的第一个实验中，我们验证了提出的目标q-FFL会为联邦数据带来更公平的解决方案(定义1)。在图2中，我们比较了两个目标的最终测试精度分布(q = 0和q &gt的调优值;0)在每个数据集的5次随机洗牌中求平均值。我们观察到，虽然平均测试精度保持相当一致，但q >0的结果是更集中(即公平)的测试精度分布和更低的方差。特别是，在保持大致相同的平均准确度的同时，q-FFL将所有设备的准确度方差平均降低了45%。我们进一步在表1中报告最差和最好的10%测试精度和最终精度分布的方差。比较q = 0和q >0时，我们看到尽管方差显著减少，但平均测试精度几乎与所提出的目标保持不变。

图2:q-FFL导致更公平的测试精度分布。虽然平均精度保持几乎相同(见表1)，通过设置q >0时，随着低准确度的增加，分布向中心偏移，但代价是某些设备上的高准确度可能会降低。设q = 0对应于原目标(1)，选取q和gt的q值;4个数据集上的0，以及分布统计数据也如表1所示。

表1:q-FFL检验精度分布的统计信息。通过设置q >0，最差的10%设备的精度提高，代价是可能降低最好的10%设备的精度。在平均精度保持不变的情况下，最终精度分布的方差显著减小。我们在附录E.1的表5中提供了其他均匀性测量(包括方差)的完整结果，并表明q-FFL在所有指标下都鼓励更均匀的分布。

我们在附录的表5中报告了所有均匀性测量(包括方差)的完整结果，并表明q-FFL在其他指标下也鼓励更一致的准确性。

表5:q-FFL检验精度分布的完整统计信息。q-FFL在不降低平均准确度的前提下，提高了最差的10%设备的准确度。我们看到q-FFL鼓励在附录a .2中定义的所有均匀性度量下更均匀的分布:(1)精度分布的方差(定义4)，(2)精度分布与all- 1向量1之间的余弦相似度/几何角(定义5)，以及(3)归一化精度向量a与均匀分布u之间的kl -散度，可以直接转换为a的熵(定义6)。

我们在图6和附录e中的表6中观察到类似的训练精度分布结果。在表1中，平均精度是关于所有数据点的，而不是所有设备;然而，我们观察到关于设备的类似结果，如表7，附录E所示（q-FFL在训练精度方面的公平性。第4节中的实证结果是关于测试准确性的。作为完整性检查，我们在图6和表6中显示q-FFL也会导致更公平的训练精度分布。）

图6:q- ffl (q >0)在不牺牲平均精度的情况下，在设备之间产生更集中(即公平)的训练精度分布。

表6:q-FFL在所有均匀性测量方面产生了更公平的训练精度分布- (a)精度方差，(b)精度分布与all-one向量1之间的余弦相似度(即角度)，以及(c)归一化精度a与均匀分布u之间的KL发散度。

表7:q-FFL目标下的平均测试精度。我们证明了q = 0和q >0个目标对于所有数据点和所有设备都具有大致相同的平均精度。

选择q。正如3.3节所讨论的，一个自然的问题是确定q应该如何在q- ffl目标中调优。我们的框架是灵活的，因为它允许人们选择q在公平性/一致性和平均准确性之间进行权衡。在附录e的表11中，我们通过经验证明了有一组q可以导致合成数据的不同程度的公平性(和准确性)。（一组q会导致不同程度的公平。在表11中，我们展示了在合成数据上使用一族q的精度分布统计量。我们的目标和方法对任何特定的q都不敏感，因为所有的q >与q = 0相比，0值可以导致更公平的解决方案。在第4节的实验中，我们使用按照附录D.2.3中描述的协议选择的q值来报告结果。）

表11:在合成数据上使用q族的测试精度统计。我们用从候选集{0.001,0.01,0.1,1,2,5,10,15}中选择的q显示结果。q-FFL允许在公平性和准确性之间进行更灵活的权衡。更大的q会导致更大的公平性(更小的方差)，但可能会降低准确性。类似地，更大的q在其他度量方面施加了更多的均匀性- (a)精度分布和全一向量1之间的余弦相似度/角度，以及(b)归一化精度a和均匀分布u之间的KL散度。

一般来说，这个值可以根据手头的数据/应用程序和期望的公平性进行调优。实践中另一种合理的方法是并行运行算法2和多个q，以获得多个最终的全局模型，然后根据验证数据的性能(例如，准确性)在这些模型中进行选择。例如，每个设备都可以根据它们的验证数据选择一个特定于设备的模型，而不是对所有设备使用一个最佳q。我们在附录e的表12中展示了这种特定于设备的策略的额外性能改进。（在这些实验中，我们探索了在q- ffl中选择q的设备特定策略。我们用q∈{0,0.001,0.01,0.1,1,2,5,10}并行求解q- ffl。训练后，每个设备根据验证数据选择最佳的结果模型，并使用测试集测试模型的性能。我们在表12中报告了测试精度方面的结果。有趣的是，与q = 0相比，使用这种特定于设备的策略，平均准确度实际上增加了，而准确度的方差减少了。我们注意到，这种策略在每一轮中确实会导致更多的本地计算和额外的通信负载。但是，如果并行运行，它不会增加通信轮的数量。）

表12:q- ffl和几个q并行运行的影响。我们在网络中独立训练多个全局模型(对应于不同的q)。训练结束后，每个设备根据验证数据的性能(准确性)选择一个最佳的、特定于设备的模型。虽然这增加了额外的本地计算和更多的通信负载，但特定于设备的策略具有额外的好处，可以同时提高准确度最差的10%设备和准确度最好的10%设备的准确度。该策略建立在提出的原始算法2之上，在实践中，人们可以开发其他启发式方法来提高性能(类似于我们在这里探索的)，基于算法2中提出的自适应平均模型更新的方法。

最后，我们注意到一个潜在的问题是，增加q的值可能会减慢收敛速度。然而，对于在我们的数据集上产生更公平结果的q值，我们没有观察到收敛速度的显著下降，如图8，附录E所示。q-FFL的收敛速度。自q−FFL (q >0)更难以优化，一个自然的问题可能会问:q- ffl q >0目标的收敛速度比FedAvg?我们在四个数据集上进行了实证研究。我们使用q-FedAvg求解q- ffl，并将其与FedAvg进行比较(即q = 0求解q- ffl)，如图8所示，得到更公平解的q值也不会显著降低收敛速度。

图8 q-FFL相对于FedAvg的收敛速度。我们将达到最高精度的距离与通信回合进行对比。虽然q>0的q- ffl是一个比较困难的优化问题，但是我们选择的q值可以得到更公平的结果，收敛速度与q = 0相当。

4.3与其他目标的比较

接下来，我们将q-FFL与其他可能在联邦网络中施加公平性的目标进行比较。一种启发式方法是平等地对每个数据点进行加权，这减少到(1)中的原始目标(即q- ffl, q = 0)，并已在第4.2节中研究过。我们还比较了两种替代方案:在采样设备时平等地加权设备，以及逆向加权设备，即针对表现最差的设备进行优化，如Mohri等人(2019)所提出的那样。

平等地称重设备。我们将q-FFL与统一抽样方案进行比较，并报告图3中的测试精度。表9的附录中给出了最终的准确性和三个公平性指标。

表9:在检验精度方面，与统一抽样基线相比，更多统计数据显示q-FFL诱导的更公平的解决方案。我们再次观察到，在q-FFL条件下，最差的10%器件的测试精度较均匀采样有提高的趋势，最终测试精度的方差较小。同样，q-FFL在其他均匀性指标方面也比均匀抽样更公平。

虽然“平等地对每个设备进行加权”启发式方法在训练精度分布方面优于我们的方法(附录E中的图7和表8)，但我们看到我们的方法在测试精度方面产生了更公平的解决方案。对此的一种解释是，均匀抽样是一种静态方法，很容易对数据点非常少的设备进行过拟合，而q-FFL将在设备损失变小时对其施加更小的权重，由于其动态性质，可能提供更好的泛化性能。

图7:q- ffl (q >0)在训练精度上与均匀抽样比较。我们看到，在一些数据集上，统一采样具有更高(更公平)的训练准确性，因为它对样本较少的设备过于拟合。

对抗性地称重设备。我们进一步比较了AFL (Mohri等人，2019)，这是我们所知道的唯一一项旨在解决联邦学习中的公平问题的工作。我们实现了一个非随机版本的AFL，其中每轮都选择和更新所有设备，并对AFL超参数γw和γλ进行网格搜索。为了设计一个尽可能有利于AFL的设置，我们修改算法2，对所有设备进行采样，并让每个设备在每一轮运行梯度下降。我们使用相同的小数据集(Adult (Blake, 1998)和下采样的Fashion MNIST (Xiao等人，2017))和与Mohri等人(2019)相同的逻辑回归模型。实现和超参数的全部细节(例如，q1和q2的值)在附录D.2.3中提供。我们注意到，与AFL相反，q- ffl是灵活的，取决于所需的公平性，更大的q导致更高的精度均匀性。如所述，q- ffl在这方面推广了AFL，因为AFL相当于q- ffl, q足够大。在表2中，我们观察到q- ffl在性能最差的设备(即AFL设计要解决的问题)上，实际上可以获得比AFL更高的测试精度。这也表明q- ffl在某些情况下获得了最公平的解。我们还观察到q-FFL收敛更快在通信轮数方面与AFL进行比较以获得类似的性能(附录E)，我们推测这是由于AFL目标的非平滑性。

4.4方法的效率q-FEDAVG

在本节中，我们通过比较算法2与其非局部更新基线q- fedsgd(算法1)来解决相同的目标(相同的q >在每一轮通信中，我们让每种方法执行相同的计算量，q-FedAvg在每个选定的设备上运行一个epoch的本地更新，而q-FedSGD使用本地训练数据运行梯度下降。在图4中，由于q-FedAvg的局部更新方案，在大多数情况下，q-FedSGD在通信轮数方面的收敛速度比q-FedSGD快。在合成数据集上，q-FedAvg与q-FedSGD相比收敛速度较慢，这可能是由于当局部数据分布高度异构时，局部更新方案可能会允许局部模型偏离初始全局模型太远，可能会损害收敛性;详见附录E中的图10。

为了证明我们的动态步长策略在解决q-FFL方面的最优性，我们还比较了我们的求解器q-FedSGD与具有最佳调优步长的FedSGD。对于q- fedsgd，我们在q = 0时调优步长，并应用该步长求解q- ffl与q >0. q-FedSGD具有与FedSGD相似的性能，这表明我们估计的q &gt上的Lipschitz常数的(逆);0和最佳调整的固定步长一样好。我们可以对不同的q重复使用这个估计，而不是在q改变时手动重新调整它。我们在附录e中展示了其他数据集上的完整结果。我们注意到，提出的方法q-FedAvg和q-FedSGD都可以很容易地集成到现有的联邦学习算法实现中，例如TensorFlow federated (TFF)。

4.5超越联邦学习:将q-FFL应用于元学习

最后，我们将提出的q-FFL目标推广到联邦学习之外的其他学习任务。一个自然的扩展是将q-FFL应用于元学习，其中每个任务都可以被视为联邦网络中的一个设备。元学习的目标是学习模型初始化，这样它就可以使用有限的训练样本快速适应新的任务。然而，由于新任务可能是异构的，最终的个性化模型的性能分布也可能是不均匀的。因此，我们的目标是学习一个更好的初始化，使其能够以公平的方式快速解决看不见的任务，即减少个性化模型精度分布的方差。

为了实现这一目标，我们将q-FFL与流行的元学习方法MAML相结合，提出了一种新的方法q-MAML (Finn etal .， 2017)。特别地，我们没有按照MAML中描述的方式更新全局模型，而是使用q- ffl目标1 q+1Fk q+1(w)的梯度更新全局参数，并从引理3推断出权重。类似地，q = 0的q-MAML简化为MAML, q→∞的q-MAML对应于具有最“公平”初始化和可能较低的平均精度的MAML。具体算法请参见附录C.2中的算法4。在元测试过程中，我们在每一轮中抽取10个任务，并训练5次(小批量)SGD迭代以实现元测试任务的个性化。我们报告了元测试任务中个性化模型的测试准确性。从上面的图5和表3中，我们观察到q-MAML能够学习初始化，从而产生更公平的个性化模型和更低的方差。

5、结论

在这项工作中，我们提出了q-FFL，这是一种新的优化目标，受到无线网络中公平资源分配的启发，它鼓励联邦学习中跨设备的更公平(更统一)的精度分布。我们设计了一种可扩展的方法q-FedAvg来解决大规模网络中的这个目标。我们对一组联邦数据集的实证评估证明了q-FFL的公平性和灵活性，以及q-FedAvg与现有基线相比的效率。我们表明，我们的框架不仅对联邦学习任务有用，而且对其他学习范式(如元学习)也有用。

Fair Resource Allocation in Federated Learning

摘要：

引言

相关工作

公平联邦学习