[Lecture de littérature] Optimisation fédérée dans les réseaux hétérogènes - FedProx

        Cet article est un document FedProx et mérite d'être consulté.


        Comme j'ai déjà lu brièvement cet article, je ne le lirai pas attentivement cette fois, mais je n'en lirai que la partie la plus importante, qui est la preuve de mise en œuvre et de convergence de PedProx.

Définition 1 : \gamma(-solution inexacte)

        Pour une fonction  h(w;w_0)=F(w)+\frac{\mu}{2}\Vert w-w_0\Vert^2 , où \gamma\in[0,1] . Nous considérons comme  une solution inexacte  de w ^ *l'objectif d'optimisation si et seulement si  , où  . Notez que plus la valeur est petite, plus la précision est élevée.\min_wh(w;w_0)\gamma\Vert \nabla h(w^*;w_0)\Vert\le \gamma \Vert \nabla h(w_0;w_0)\Vert\nabla h(w;w_0)=\nabla F(w)+\mu(w-w_0)\gamma

        Ce concept est utilisé dans l'analyse ultérieure pour mesurer le montant du calcul de chaque tour.

        Après cela, l'article a souligné le principal problème de FedAvg : bien que l'exécution de plus d'époques locales permette plus de calculs locaux et réduise la communication, cela peut grandement améliorer la vitesse de convergence globale dans les réseaux à communication limitée. Des époques locales plus grandes peuvent conduire chaque appareil vers son optimalité locale, ce qui peut affecter la convergence et même faire diverger la méthode.

        Une approche plus naturelle que l'application d'un nombre fixe d'époques locales consiste à permettre aux époques de varier en fonction des caractéristiques du réseau et d'incorporer soigneusement des solutions en tenant compte de cette hétérogénéité.

Cadre : FedProx

        Il n'est pas réaliste de forcer chaque appareil à effectuer une charge de travail uniforme. Nous généralisons FedAvg en permettant d'effectuer localement différentes quantités de travail en fonction des ressources système disponibles de l'appareil, puis agrégeons les solutions partielles envoyées par les retardataires.

        En d'autres termes, au lieu de supposer l'uniformité pour tous les appareils tout au long de la formation \gamma, FedProx adapte implicitement les variables pour différents appareils et différentes itérations\gamma . Formellement, pour   le ème utilisateur  t du ème cycle de formation  , on définit - l'incertitude,k\gamma^t_k

Définition 2 : \gamma^t_k(-solution inexacte)

        Pour une fonction  h_k(w;w_t)=F_k(w)+\frac{\mu}{2}\Vert w-w_t\Vert^2 , où \gamma\in[0,1] . Nous considérons comme  une solution inexacte  de w ^ *l'objectif d'optimisation si et seulement si  , où  . Notez que plus la valeur est petite, plus la précision est élevée.\min_wh_k(w;w_t)\gamma^t_k\Vert \nabla h_k(w^*;w_t)\Vert\le \gamma^t_k \Vert \nabla h(w_t;w_t)\Vert\nabla h(w;w_0)=\nabla F(w)+\mu(w-w_0)\gamma^t_k

t Cela signifie que le gradient de la fonction de perte sous le poids du         tour en cours après avoir ajouté le "terme régulier" est multiplié par \gamma^t_kce coefficient pour obtenir une valeur. S'il y a un poids w ^ *qui rend t le gradient sous le tour en cours inférieur à cette valeur , on l'appelle \gamma^t_k- délier imprécis. De même \gamma, \gamma^t_kil mesure la quantité de calculs locaux effectués sur le premier  t appareil k pour résoudre la fonction locale.

terme proximal

        Les termes proximaux peuvent effectivement limiter l'impact des données hétérogènes locales. Tous les clients sont à nouveau résolus F_k(\cdot) , et résolvent à la place avec des termes proximaux h_k(\cdot) :

\min_w h_k(w;w^t)=F_k(w)+\frac{\mu}{2}\Vert ww^t\Vert^2

        Les termes proximaux sont bénéfiques de deux manières :

  • Il résout l'hétérogénéité statistique en limitant les mises à jour locales pour qu'elles soient plus proches du modèle initial (global) sans définir manuellement les époques.
  • Il permet de fusionner en toute sécurité des quantités variables de travail local causées par l'hétérogénéité du système

Algorithme : FedProx

        D'abord, pour chaque tour  , un appareil t est sélectionné  St pour participer à l'entraînement, puis le serveur envoie les données agrégées du dernier tour  w^t à tous les clients, puis chaque utilisateur  k trouve une  solution inexacte w^{t+1}_k qui fait du poids la fonction suivante  :\gamma^t_k

\arg\min_w h_k(w;w^t)=F_k(w)+\frac{\mu}{2}\Vert ww^t\Vert^2

        Chaque client w^{t+1}_k les renvoie ensuite au serveur. Agrégats de serveur.

        L'auteur a mentionné que si nous en choisissons une spécifique  \ mu , la  h_k(\cdot) matrice hessienne de la fonction sera définie positive, ce qui signifie que la fonction de perte non convexe d'origine est susceptible de devenir une fonction convexe après l'ajout du terme proximal ; il s'agit d'une fonction convexe , deviendra une fonction fortement convexe.

        Et on peut aussi remarquer que FedAvg est un cas particulier de FedProx si et seulement si :

  1. µ=0
  2. Le choix spécifique est le solveur local pour SGD
  3. Constante sur tous les appareils et boucles de mise à jour  \gamma (correspondant au numéro d'époque local)

        Ce qui suit est une analyse et une comparaison expérimentale de la convergence, ainsi qu'une discussion sur l'hétérogénéité du système.


        Tout au long de l'article, nous proposons FedProx, un algorithme d'agrégation optimisé qui traite l'hétérogénéité systématique et statistique dans les réseaux fédérés. FedProx permet d'effectuer localement différentes quantités de travail entre les appareils, en s'appuyant sur des termes proximaux pour stabiliser l'agrégation. L'évaluation empirique de l'article sur un ensemble d'ensembles de données fédérées valide l'analyse théorique précédente et démontre que le cadre FedProx peut considérablement améliorer la convergence de l'apprentissage fédéré dans les réseaux hétérogènes du monde réel.

Je suppose que tu aimes

Origine blog.csdn.net/m0_51562349/article/details/128089606
conseillé
Classement