[Lecture de littérature] Participation flexible des appareils à l'apprentissage fédéré

这是张老师的二作文章,可得好好读。

Résumé

  Les algorithmes d'apprentissage fédéré traditionnels ont des exigences strictes sur le taux de participation des appareils, ce qui limite la couverture potentielle de l'apprentissage fédéré. Cet article étend le paradigme d'apprentissage actuel pour inclure les appareils qui peuvent devenir inactifs, calculer des mises à jour incomplètes et partir ou arriver pendant la formation. Nous tirons des résultats analytiques pour illustrer que permettre une participation plus flexible des appareils affecte la convergence de l'apprentissage lorsque les données ne sont pas IID.
  Nous proposons ensuite un nouveau schéma d'agrégation fédérée qui converge même si les appareils peuvent être inactifs ou renvoyer des mises à jour incomplètes. Nous étudions également comment le processus d'apprentissage s'accommode d'un départ précoce ou d'une arrivée tardive et analysons leur impact sur la convergence.


1. Introduction

  Considérant que l'apprentissage fédéré nécessite généralement des milliers de cycles de communication pour converger, il est difficile en pratique de s'assurer que tous les appareils sont disponibles tout au long du processus de formation. De plus, plusieurs applications s'exécutent simultanément sur les appareils des utilisateurs, se disputant des ressources matérielles déjà très limitées . Par conséquent, il n'y a aucune garantie que l'appareil puisse effectuer les tâches de formation spécifiées comme prévu à chaque cycle de formation.
  Bien que de nombreuses méthodes aient été proposées pour décharger la charge de travail des appareils individuels, telles que la compression de poids et l'abandon fédéré, elles ne peuvent pas éliminer complètement la possibilité qu'un appareil soit incapable d'effectuer ses tâches de formation. Par conséquent, dans l'apprentissage fédéré à grande échelle, de nombreux appareils à ressources limitées doivent d'abord être exclus de l'apprentissage fédéré, ce qui limite la disponibilité potentielle des ensembles de données de formation et affaiblit l'applicabilité de l'apprentissage fédéré. De plus, les travaux existants ne précisent pas comment réagir face à des comportements inattendus de l'appareil, ni n'analysent l'impact (négatif) de ces comportements sur la progression de la formation.
  Dans cet article, nous assouplissons ces restrictions et permettons aux appareils de suivre un modèle de participation plus flexible :

  • Incomplétude : Un appareil ne peut soumettre que des travaux partiellement terminés dans un tour.
  • Inactif : De plus, l'appareil peut ne pas terminer les mises à jour ou ne pas répondre du tout au coordinateur.
  • Sortie anticipée : dans des cas extrêmes, l'équipement existant peut quitter la formation avant d'avoir terminé toutes les époques de formation.
  • Arrivées tardives : En plus de l'équipement existant, de nouveaux équipements peuvent être ajoutés après le début de la formation.

  Notre approche pour accroître la flexibilité de la participation des appareils comprend les composants suivants, qui complètent l'algorithme FedAvg existant et répondent aux défis posés par la participation flexible des appareils :

  • Débiaisation des mises à jour partielles du modèle
  • Redémarrage rapide à l'arrivée de l'appareil
  • Redéfinir l'adéquation du modèle à la déviation de l'appareil

2 travaux connexes

  (Certains travaux sur la formation asynchrone) L'agrégation asynchrone dans l'algorithme peut être naturellement appliquée à des appareils inactifs aléatoires, mais les auteurs n'analysent pas comment la convergence de leur algorithme est affectée par des appareils inactifs ou incomplets et l'hétérogénéité des données.
  (certains travaux qui assouplissent les exigences des appareils pour la participation) Ces travaux ne montrent pas comment les changements dans les appareils affectent la convergence de la formation, ni n'intègrent l'hétérogénéité des données des utilisateurs dans la conception de l'algorithme.
  Attendez la recherche de travail connexe.


3 Analyse de convergence

3.1 Description de l'algorithme

  Supposons qu'il y ait NN iciN appareils, nous kkpour chaque appareilk définit une fonction objectif localeF k ( w ) F_k(w)Fk( w ) . dans cewww est évidemment le paramètre de poids de l'apprentissage automatique,F k ( w ) F_k(w)Fk( w ) peut être un périphériquekkPerte d'expérience moyenne sur tous les points sur k . Notre objectif global est de minimiser la fonction suivante :

F ( w ) = ∑ k = 1 N pk F k ( w ) F(w)=\sum_{k=1}^Np_kF_k(w)F ( w )=k = 1NpkFk( w )

  où pk = nknp^k=\frac{n_k}{n}pk=nnknk n_knkest l'appareil kkLe nombre de données détenues par k , et n = ∑ k = 1 N nkn=\sum_{k=1}^Nn_kn=k = 1Nnk. Ordre w ∗ w^*w est la fonctionF ( w ) F(w)F ( w ) prend le paramètre de poids de la valeur minimale. On utiliseF k ∗ F_k^*Fkreprésente F k F_kFkvaleur minimum.

  Pour décrire l'appareil kkÀ quel point la distribution des données de k est différente de la distribution des données des autres appareils, nous quantifions comme Γ k = F k ( w ∗ ) − F k ∗ \Gamma_k=F_k(w^*)-F_k^*Ck=Fk( w )Fk, en même temps Γ = ∑ k = 1 N pk Γ k \Gamma=\sum_{k=1}^Np_k\Gamma_kC=k = 1NpkCk.

  Considérons les pas de temps discrets t = 0 , 1 , ⋯ t=0,1,\cdotst=0 ,1 , .quandttc'est EE_Lorsque le multiple de E , les poids du modèle sont synchronisés. Supposons qu'il y ait au plusTTPour T tours, pour chaque tour (par exemple àτ \tauτ rond), nous effectuons les trois étapes suivantes :

  1. Synchronisation : Le serveur diffuse le dernier poids w τ EG w_{\tau E}^\mathcal{G}wτE _Gà tous les clients. Chaque client met à jour son propre paramètre de pondération : w τ E k = w τ EG w_{\tau E}^k=w_{\tau E}^\mathcal{G}wτE _k=wτE _G
  2. Entraînement local : quand i = 0 , ⋯ , s τ k − 1 i=0,\cdots,s_\tau^k-1je=0 ,,stkA 1 , chaque appareil a sa propre fonction de perteF k F_kFkCalcul SGD de transport : w τ E + i + 1 k = w τ E + ik − η τ g τ E + ik w_{\tau E+i+1}^k=w_{\tau E+i}^k- \eta_\tau g_{\tau E+i}^kwτE + je + 1 _k=wτE + je _kletgτE + je _kIci η τ \eta_\tauletest avec τ \tauτ taux d'apprentissagepar décroissance0 ≤ s τ k ≤ E 0\le s_\tau^k\le E0stkE représente le nombre de pas de temps des mises à jour locales effectuées dans ce tour. gtk = ∇ F k ( wtk , ξ tk ) g_t^k=\nabla F_k(w_t^k,\xi_t^k)gtk=∇F _k( wtk,Xtk) est le périphériquekkLe gradient stochastique de k , oùξ tk \xi_t^kXtkReprésente les données du mini-lot local. On définit aussi g ˉ tk = ∇ F k ( wtk ) \bar g_t^k=\nabla F_k(w_t^k)gˉtk=∇F _k( wtk) désigne l'appareilkkLe gradient de lot complet de k , donc g ˉ tk = E ξ tk [ gtk ] \bar g_t^k=\mathbb E_{\xi_t^k}[g_t^k]gˉtk=EXtk[ gtk]
  3. 码线: : 电视器 砖线 梯度 可 生活 在于 安全权重 安全权重 Paramètres: W (τ + 1) Eg = w τ Eg + ∑ k = 1 n p τ k (w τ e + s τ k - w τ eg) w ( τ + 1 ) EG = w τ EG − ∑ k = 1 N p τ k ∑ je = 0 s τ k η τ g τ E + ik w_{(\tau+1) E}^\mathcal{G}=w_ { \tau E}^\mathcal{G}+\sum_{k=1}^Np_\tau^k(w_{\tau E+s_{\tau}^k}-w_{\tau E}^\mathcal { G})\\w_{(\tau+1) E}^\mathcal{G}=w_{\tau E}^\mathcal{G}-\sum_{k=1}^Np_\tau^k\ somme_ {i=0}^{s_\tau^k}\eta_\tau g_{\tau E+i}^kw( τ + 1 ) EG=wτE _G+k = 1Nptk( wτE + s _tkwτE _G)w( τ + 1 ) EG=wτE _Gk = 1Nptkje = 0stkletgτE + je _kSi s τ k = 0 s_\tau^k=0stk=0 (c'est-à-dire l'appareilkkk auxτ \tauτ rond sans aucune mise à jour), alors nous disons appareilkkk auxτ \tauLa ronde tau estinactive. Si0 < s τ k < E 0<s_\tau^k<E0<stk<E , alors on dit le dispositifkkk estincomplet. Nous allons chacuns τ k s_\tau^kstkEn tant que variable aléatoire suivant une distribution arbitraire, si s τ k s_\tau^k de différents appareilsstkont des distributions différentes, alors elles sont hétérogènes, sinon elles sont homogènes. En même temps, nous autorisons le coefficient de poids agrégé p τ k p_\tau^kptkAvec des pas de temps τ \tauτ change. (Généralementp τ k p_\tau^kptkest s τ k s_\tau^kstkLa fonction)

Comme cas particulier, FedAvg traditionnel suppose que tous les appareils complètent tous les EE par tourE apprentissage du pas de temps, doncs τ k ≡ E s_\tau^k\equiv EstkE. _ Et le coefficient d'agrégation p τ k ≡ pk p_\tau^k\equiv p^kutilisé par FedAvg participé par tous les appareilsptkpk , donc le côté droit de la formule précédente peut s'écrire :w ( τ + 1 ) EG = ∑ k = 1 N p τ kw τ E k w_{(\tau+1) E}^\mathcal{G} =\sum_ {k=1}^Np_\tau^kw_{\tau E}^kw( τ + 1 ) EG=k = 1NptkwτE _kEn effet, l'agrégation de gradient équivaut à l'agrégation directe des paramètres du modèle .

3.2 Borne de convergence générale

  Cette partie prouve les bornes de convergence suivantes à travers diverses hypothèses (dont le gradient de Lipschitz, etc.) :
insérez la description de l'image ici

3.3 Transfert d'objectif global

  Ce chapitre décrit le phénomène selon lequel la fonction de perte globale est décalée vers l'appareil en raison de l'acceptation des poids de l'appareil spécifique. L'article a le théorème suivant :
insérez la description de l'image ici
  L'article dérive alors une nouvelle borne de convergence dans le cas de décalages d'objectifs globaux.

Je suppose que tu aimes

Origine blog.csdn.net/m0_51562349/article/details/128279673
conseillé
Classement