Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning [论文3]

arXiv - CS - Machine LearningPub Date : 2021-06-10, DOI: arxiv-2106.06047

Liangqiong Qu, Yuyin Zhou, Paul Pu Liang, Yingda Xia, Feifei Wang, Li Fei-Fei, Ehsan Adeli, Daniel Rubin

摘要:

针对的问题:缺乏融合以及在现实世界的异构设备中可能出现灾难性遗忘。

改善:证明了基于自我注意的架构(Transformers)对分布变化更稳健,从而改进了对异构数据的联邦学习。对跨一系列联合算法、现实世界基准和异构数据拆分的不同神经架构进行了首次严格的实证研究。

结论:用 Transformer 替换卷积网络可以大大减少以前设备的灾难性遗忘,加速收敛,并达到更好的全局模型,尤其是在处理异构数据时

1、引言

跨非 IID 设备学习单一全局模型的问题:

(1)并行 FL 方法的无保证收敛和模型权重发散

(2)串行 FL 方法的严重灾难性遗忘问题

 论文出发点的前提假设:通过重新思考联邦模型中架构的选择来提供一个新的视角。

假设 Transformer 架构特别适用于异构数据分布

假设的原因:
因为它们对分布变化具有惊人的鲁棒性。这一特性导致 Transformer 在自监督学习中的流行,其中异质性通过未标记的预训练数据和标记的测试数据之间的分布变化表现出来,以及在图像和文本等基本异构输入模式上的多模式学习。

过程:

为了研究这个假设,在一套联合算法、现实世界的基准和异构数据拆分中对几种神经架构进行了第一次大规模的经验基准测试。为了表示 Transformer 网络,我们在跨越图像分类和医学图像分类的图像任务中使用 Vision Transformers的标准实现。

结果:

VIT-FL(使用视觉转换器的联合学习)在具有大多数异构设备拆分的设置中表现特别好,随着异质性的增加,VIT-FL 和带有 ResNets的 FL 之间的差距显着增加。为了理解这些结果,我们发现改进的主要来源在于 Transformer 模型对异构数据的鲁棒性增强,这减少了在使用完全不同的新设备进行训练时对以前设备的灾难性遗忘。Transformers 一起更快地收敛并达到适合大多数设备的更好的全局模型。通过与专门为应对异构数据而设计的 FL 方法进行比较,发现 VIT-FL 提供了即时改进,而无需使用训练启发式、额外的超参数调整或额外的训练。此外, VIT-FL 与现有的基于优化的 FL 方法正交,可以轻松应用于提高其性能。为此,我们得出结论,在未来的研究中,变形金刚应该被视为 FL 问题的自然起点。

3、Transformers in Federated Learning

将FedAvd与CWT结合作为训练算法:

图 2. 典型串行 FL 方法 CWT [7] 和并行 FL 方法 FedAVG [46] 在具有标签分布偏度的 CIFAR-10 [31] 的非 IID 数据分区上的简化示意图。Wt,i表示第 t 轮训练期间对客户端 i 的模型权重(总共涉及 K 个客户端)。在右侧,我们使用 UMAP [45] 展示了 ViT(S)-FedAVG 和 ResNet(50)-FedAVG 的特征嵌入可视化。我们发现 ViT(S)-FedAVG 学到的特征比 ResNet(50)-FedAVG 学到的特征分离得更清楚。我们的实验(第 4.2 节)支持 VIT-FL 在异构数据上的优势,我们提供了解释其有效性的分析(第 4.3 节)。

FedAVG 将每个客户端上的局部随机梯度下降 (SGD) 与迭代模型平均 [47] 相结合。具体来说,在每一轮通信中随机抽取一小部分本地客户端,服务器将当前的全局模型发送到这些客户端中的每一个。然后,每个选定的客户端对其本地训练数据执行 E 轮本地 SGD,并将本地梯度发送回中央服务器以同步聚合。服务器然后应用平均梯度来更新其全局模型,然后重复该过程。

循环重量转移。与以同步和并行方式训练每个本地客户端的 FedAVG 相比,CWT 中的本地客户端以串行和循环方式进行训练。在每一轮训练中,CWT 在一个本地客户端上用其本地数据训练一个全局模型,持续多个 epochs E,然后将这个全局模型转移到下一个客户端进行训练,直到所有本地客户端都被训练一次 [7 ].然后,训练过程在客户端反复循环,直到模型收敛或达到预定的通信轮数。

说实话,这个第三章的描述把我看懵了,这么简短的吗?

4、实验

解决以下五个问题:

(1)与作为 FL 任务的实际方法的 CNN 相比,Transformers 是否能够在 FL 设置中学习更好的全局模型?(第 4.2 节)

(2)Transformers 是否特别能够处理异构数据分区?(第 4.3.1 节)

(3)与 CNN 相比,Transformer 是否降低了通信成本(第 4.3.2 节)?

(4) Transformers 能否应用于进一步改进现有的基于优化的 FL 方法(第 4.4 节)?

(5)哪些实用技巧有助于从业者在 FL 中部署 Transformers(第 4.5 节)?

数据集:在 Kaggle 糖尿病视网膜病变竞赛数据集(表示为 Retina)、具有模拟数据分区的 CIFAR-10 数据集 和真实世界 CelebA 数据集上评估 FL学习。

对 VIT-FL 使用线性学习率预热和衰减调度程序。带有 CNN 的 FL 的学习率调度器是从线性预热和衰减或步进衰减中选择的。应用梯度裁剪(全局范数 1)来稳定训练。我们将所有 FL 方法中的本地训练时期 E 设置为 1(除非另有说明),并且 Retina 和 CIFAR-10 的总通信轮数为 100,CelebA 的总通信轮数为 30。为了公平比较,本文中使用的所有模型都在 ImageNet-1K上进行了预训练。

4.2、结果

FL 与不同神经架构和(理想)集中训练的比较:

无论应用哪种架构,CWT 和 FedAVG 都能在 IID 设置上获得与在集中托管数据(表示为 Central)上训练的模型相当的结果(图 3)。然而,我们观察到 CWT 和 FedAVG 的异构数据分区上 CNN 的测试准确性显着降低,分别在 Retina 数据集(第一行)和 CIFAR-10 数据集(第二行)上使用 CNN 和 Transformers 作为基线网络的 CWT 和 FedAVG 的预测准确率 (%)。Vision Transformers(ViT 和 Swin)表现出一贯的强大性能,尤其是在非 IID 数据分区中。

图3:以cnn和transformer为基线网络的CWT和FedAVG分别在Retina数据集(第一行)和CIFAR-10数据集(第二行)上的预测准确率(%)。Vision transformer(包括ViT和Swin)始终表现出强大的性能,特别是在非iid数据分区中。

在极其异构的数据分区上(Split 3,CIFAR-10 的 KS-1)(图 3 和图 1)。通过简单地将 CNN 替换为 ViT,CWT 和 FedAVG 即使在高度异构的非 IID 设置中也能成功保持模型准确性。ViT(S)-CWT 和 ViT(S)-FedAVG 在高度异构的 Split-3、KS-1 上相对于 ResNet(50)-CWT 和 ResNet(50)-FedAVG 提高了 77.70% 和 37.34% 的测试精度CIFAR-10 数据集。因此,VIT特别适用于异构数据。

图1:CIFAR-10数据集高度异构数据分区(Split-3)与模型大小1的预测测试精度。在高度异构的数据分区上,Vision transformer (ViTs和Swin transformer)的性能明显优于cnn (ResNets和EfficientNets)。

与现有 FL 方法的比较:

将 VIT-FL 与两种最先进的基于优化的 FL 方法进行比较:FedProx 和 FedAVG-Share 在 Retina 和 CIFAR-10 上。我们使用 ResNet(50) 作为其他比较方法的主干网络,并使用 ViT(S) 作为我们方法的主干网络。我们使用网格搜索在 Split-2 数据集上调整最佳参数(FedProx 近端项中的惩罚常数 µ),并将相同的参数应用于所有剩余的数据分区。我们允许每个客户为 FedAVGShare 在彼此之间共享 5% 的数据。如图 4 所示,VIT-FL 在非 IID 数据分区中优于所有其他 FL 方法,尤其是在高度异构的非 IID 设置上。尽管仔细调整了优化参数,FedProx [37] 在高度异构的数据分区上仍遭受严重的性能下降。 FedAVG-Share 在高度异构的数据分区 Split-3 上也会出现性能下降,即使 5% 的本地数据在所有客户端之间共享(CIFAR-10 数据集上的 Split-3 为 94.4%,而 Split 上为 97%) -1).我们得出结论,简单地使用 Transformers 优于最近为 FL 设计的几种方法,这些方法通常需要仔细调整优化参数。VIT 的使用与现有的优化方法是正交的,两者的结合可以产生更强的性能(详见第 4.4 节)。

图4。在视网膜数据集(第一行)和CIFAR-10数据集(第二行)上使用不同的数据分区测试集精度与通信轮的关系。黑色虚线显示表3中使用的目标性能(target - acc)。视觉变形器收敛速度快,通信轮数少,特别适用于通信效率高的FL。

表3:达到目标性能(最佳和次优)所需的#传输消息大小(#通信轮× #模型参数(M))。ViT(S)和ResNet(50)的#模型参数分别为21.7M和23.5M。vit收敛速度更快,特别是在异构数据分割上,并且可以与基于优化的方法(FedProx和FedAVG-Share)结合使用,从而实现更快的收敛。

4.3、分析Transformers的有效性

4.3.1 Transformers 在非 IID 设置中泛化得更好

FL 的分布式特性意味着跨客户端的数据分布可能存在很大的异质性。先前的研究表明,使用 FedAVG 或 CWT 训练 FL 模型分别会导致权重发散和灾难性遗忘等问题 [30、57]。我们认为,CNN 中使用的局部卷积已被证明更多地依赖于局部高频模式 [13、26、63],可能对异构设备特别敏感。由于不同的医学成像协议 [16,55] 以及自然数据拆分,不同机构捕获的输入图像在局部模式(强度、对比度等)上可能存在显着差异,因此这个问题在 FL 中比医疗保健数据尤为普遍由于用户在说话 [33]、打字 [17] 和写作 [28] 方面的特质。另一方面,ViTs 使用自注意力来学习全局交互 [53],并且与 CNN 相比,已被证明对局部模式的偏见较小。此属性可能有助于它们对分布图 5 的惊人稳健性。左图:随着越来越多的客户端参与 CWT 学习,客户端 3 的验证数据集的预测准确性的演变。我们使用 CIFAR-10 数据集的 Split 3(最异构的数据拆分)并比较使用 ResNet(50)(图中的 R50)、ResNet(50)-EWC [30] 和 ViT(S) 模型训练的 CWT。右:放大左图中的红色矩形。还显示了不同客户端的训练顺序。ResNet(50)-CWT 的顺序训练策略会在高度异构的数据分布下对先前的客户端造成灾难性的遗忘。ResNet(50)-EWC-CWT [30] 勉强解决了灾难性遗忘问题。ViT(S)-CWT 由于其强大的泛化能力和对异构数据的鲁棒性,有助于缓解这个问题。

进一步分析 Transformer 跨异构数据的泛化能力,设计了以下实验:

1. 跨异构设备的灾难性遗忘:

CNN 在分布外数据上的表现通常更差。这种现象在串行 FL 方法 CWT 中尤为严重。由于其顺序和串行训练策略,在 CWT 范例中训练 CNN 通常会导致对非 IID 数据分区的灾难性遗忘:在具有不同数据分布的新客户端上进行几次更新后,模型在先前客户端上的性能突然下降。这会导致更差和更慢的收敛,这在 FL 中是不希望的。在迁移学习文献中也发现了类似的遗忘问题。

在 CIFAR-10 数据集的 Split-3 上评估 CWT,以说明这种灾难性的遗忘现象。在图 5 中,我们绘制了随着越来越多的客户端参与 CWT 学习,Client-3 的验证数据集(与训练数据集共享相同的数据分布)的预测准确性的演变。将 Client-3 上训练有素的模型转移到 Client-4 时,先前 Client-3 验证数据集的预测准确度突然急剧下降(从 > 98% 到 < 1% 准确度)。然而,以 ViT 作为骨干训练的模型 (ViT(S)-CWT) 能够将知识从 Client-3 转移到 Client-4,同时仅丢失少量关于 Client-3 的信息(保持 98% 的准确率)。因此,ViT 可以更好地泛化到新的数据分布,而不会忘记旧数据分布。

图5。左:随着更多的客户端参与CWT学习,客户端3验证数据集上预测精度的演变。我们使用CIFAR-10数据集的Split 3(异构数据最多的Split),并将训练好的CWT与ResNet(50)(图中的R50)、ResNet(50)-EWC[30]和ViT(S)模型进行比较。右:放大左图中的红色矩形。并给出了不同客户端的训练顺序。ResNet(50)-CWT的序列训练策略在高度异构的数据分布下会对之前的客户端产生灾难性的遗忘。ResNet(50)-EWC-CWT[30]勉强解决了灾难性遗忘问题。ViT(S)-CWT具有较强的泛化能力和对异构数据的鲁棒性,有助于缓解这一问题。

将 ViT(S)-CWT 与专门设计用于减轻灾难性遗忘的优化方法 EWC [30](使用 [23] 中的实现)进行比较。CWT 在 CIFAR-10 的 Split-3 上的串行训练可以被视为增量类学习任务,其中每个客户端都包含数据集中的类的独占子集。每个客户端模型共享相同的分类器到标准化联合标签空间 [23]。然而,从图 5 来看,EWC 几乎没有解决高度异构数据分区上的灾难性遗忘问题,这也与 [23] 中报告的结果相符。该实验进一步证明了 ViT 超越为 FL 设计的优化方法的有效性。

2. VIT-FL 在真实世界联邦数据集上的泛化:

一个训练有素的联邦模型应该在其他看不见的客户端的分布外测试数据集上表现良好。为了测试 Transformers 的通用性,我们使用图 6。测试集精度与 ViT(S)-FedAVG 上的通信回合及其与现有 FL 方法 FedProx [37] 和 FedAVG-Share [68] 的组合。Vision Transformers 可以与现有的基于优化的 FL 方法结合使用,以进一步提高收敛速度并以更少的通信次数达到目标性能。

图6:ViT(S)-FedAVG及其与现有FL方法FedProx[37]和FedAVG-Share组合的通信轮的测试集精度[68]。视觉变形器可以与现有的基于优化的FL方法结合使用,进一步提高收敛速度,以更少的通信次数达到目标性能。

Split 2, KS-0.49 (Retina) Split 3, KS-0.57 (Retina) 将其应用于真实世界的联合 CelebA 数据集 [42],并将其与 ResNet 对应物 FedProx [37] 和 FedAVG-Share [68] 进行比较].我们在表 1 中报告了使用不同 FL 方法训练的模型对来自所有本地客户端的测试数据的联合的测试精度。我们的 VIT-FL 方法优于最先进的 FL 方法,并且还减少了方差。这表明 Transformer 学习到的全局模型比 CNN 模型更好。

表1:对CelebA数据集的预测准确率(%)。Vision transformer的性能优于ResNet(50)(表中的R50),也优于以ResNet(50)为骨干网络的基于优化的FL方法(FedProx和FedAVG-Share)。

3. VIT-FL 在极端大规模设置上的泛化:

为了验证 VIT-FL 在涉及数千个客户端的更大规模的真实世界分布式学习环境中的有效性,我们进一步将不同的 FL 方法应用到一个极端Retina 和 CIFAR-10 数据集上的边缘情况。这里的边缘情况被定义为一个客户只持有一个数据样本,这在医疗保健中很常见,患者只持有一个属于自己的数据样本。这导致了大量的异构客户端:Retina 有 6, 000 个,CIFAR-10 有 45, 000 个。从表 2 中,ViTs 仍然在这种极端异构的边缘案例设置上学习了一个有前途的全局模型,明显优于 ResNet 模型(在 Retina 上从 50% 到 80%,在 CIFAR-10 上从 30% 到 90%)。

表2。在有数千个客户参与训练的大规模边缘情况下(Retina和CIFAR-10分别为6,000和45,000个客户,每个客户包含一个数据样本)的预测精度(%)。在这种边缘情况下,视觉变形金刚的表现明显优于ResNet。

4.3.2 Transformer收敛得更快,更优(通信成本)

计算了达到集中训练的 ResNet(50) 预测准确度的 95% 的预定义目标测试集准确度所需的通信轮数。具体来说,我们将 Retina 和 CIFAR-10 数据集的目标准确率分别设置为 77.5% 和 91.5%。我们将串行 CWT 方法的一轮通信定义为所有联合本地客户端的一个完整训练周期。

从图 4 和表 3 可以看出,所有经过评估的 FL 方法都可以在同类数据分区上快速收敛到目标测试性能。然而,ResNet(50)-FedAVG 和 ResNet(50)-CWT 的收敛速度随着异质性的增加而降低,甚至在高度异质的数据分区上达到稳定状态(永远达不到目标精度)。相比之下,VIT-FL 在异构数据上仍然可以快速收敛。例如,ResNet(50)-CWT 由于在 CIFAR-10 上对异构数据分区 Split-2 和 Split-3 的严重灾难性遗忘而完全发散,而 ViT(S)-CWT 在 34 和 85 轮通信后达到目标性能。

表3达到目标性能(最佳和次优)所需的#传输消息大小(#通信轮× #模型参数(M))。ViT(S)和ResNet(50)的#模型参数分别为21.7M和23.5M。vit收敛速度更快,特别是在异构数据分割上,并且可以与基于优化的方法(FedProx和FedAVG-Share)结合使用,从而实现更快的收敛。

4.4.结合现有方法

由于我们对架构选择的调查在很大程度上与现有的基于优化的 FL 方法正交,我们的发现可以很容易地与后者结合使用。我们将 Vision Transformers 与基于优化的方法(FedProx [37] 和 FedAVG-Share [68])相结合,并将其应用于 Retina 和 CIFAR-10 数据集。从表 3 和图 6 可以看出,当应用于现有的 FL 优化方法时,VIT 进一步提升了异构数据客户端的性能。

4.5.实际使用要点

局部训练时期:

标准使用 E 表示局部模型在其局部数据集上经过的轮数。已知 E 会强烈影响 FedAVG [47] 和 CWT [7] 的性能。我们对局部训练时期 E 对 VITFL 的影响进行了实验研究。我们考虑将E=1,5,10 用于 ViT(B)-FedAVG,将E=1,5用于 ViT(B)-CWT。从图 7 中,我们发现 ViT 显示出与它们的 CNN 对应物相似的现象,即较大的 E 加速了 ViT(B)-FedAVG 在同质数据分区上的收敛,但可能导致异构数据分区上的最终性能恶化。类似地,ViT(B)-CWT 也有利于每个客户端之间的频繁传输速率,就像 ResNet(50)-CWT [7] 在非 IID 数据分区上一样。因此,我们建议用户对同质数据应用大 E 以减少通信,但对高度异构的情况应用小 E(VIT-FedAVG 的E小于等于5和和 VIT-CWT 的E=1)

预训练对 VIT-FL 的影响:

有证据表明,从头开始训练时,VIT 通常需要大量训练数据才能比 CNN 表现更好 [12]。我们进行实验以研究预训练对 VIT-FL 的影响。我们应用 FedAVG 作为训练算法,使用 Swin(T) [41] 作为骨干网络,并在 CIFAR-10 上进行测试。我们在训练期间应用与 [41] 相同的增强和正则化策略,并将最大通信轮数设置为 300。如表 4 所示,对于理想的集中托管和 FL 设置,从头开始训练时 Swin(T) 的性能都会下降。尽管如此,从头开始训练时,它在高度异构数据分区 Split-3 上的性能 (64.50%) 比使用更多数量级的数据进行预训练时的 ResNet(50)-FedAVG(图 3 中的 59.68%)要好得多。在实际应用中,建议用户将 VIT 作为他们的第一选择,因为在应用预训练模型时,VIT-FL 始终优于 CNN 对应物(图 1 和图 3)。如果没有大规模的预训练数据集,自我监督的预训练 [6, 18] 可能是一种替代方法。其他训练tips: FL中VIT的训练策略可以直接继承VIT训练,比如使用linear warm-up和learning rate decay,以及gradient clipping。相对较小的学习率和梯度范数剪辑对于稳定 CWT 中 VIT 的训练是必要的,特别是在高度异构的数据分区中。梯度范数剪辑还有助于跨异构数据使用 CNN 训练 FL,因为它已被证明可以减少局部更新和当前全局模型之间的权重差异 [37]。请参阅附录 B.1 了解更多一般提示和实验分析。

5、结论

尽管 FL 最近取得了进展,但在处理异构数据时仍然存在收敛和遗忘方面的挑战。与以前改进优化的方法不同,我们通过重新思考 FL 中的架构设计提供了一个新的视角。利用 Transformer 对异构数据和分布变化的稳健性,我们进行了广泛的分析,并证明了 Transformers 在减轻灾难性遗忘、加速收敛以及为并行和串行 FL 方法达到更好的优化方面的优势。我们发布我们的代码和模型,以鼓励在优化方面努力的同时开发健壮的架构。

猜你喜欢

转载自blog.csdn.net/weixin_62646577/article/details/129641100