当联邦学习碰上老虎机

原论文：Federated Multi-Armed Bandits

FMAB框架

FL和MAB的自然结合—我们的动机是从非IID的（可能大量的）本地强盗模型中，以通信效率和隐私保护的方式解决全局随机MAB问题。

新的联邦MAB框架（FMAB）第一次系统地尝试将FL（联邦学习）和MAB连接起来。FMAB框架是通用的，可以包含各种与FL原则相同的bandit问题。我们首先研究了一个近似的FMAB模型，证明了该框架的优点，其中全局bandit模型作为地面真相存在，而局部bandit模型是它的随机实现。除了arm采样中常见的奖励不确定性外，此设置还引入了与客户端采样相关的新不确定性。特别是，近似模型不假设任何次优差距知识，这禁止事先确定客户抽样要求。在不知道次优差距的情况下，将客户端采样与arm采样相混合会使问题变得非常复杂，我们通过提出一种新的联邦双UCB（Fed2 UCB）算法来解决这些挑战，该算法在执行arm采样时逐渐对新客户端进行采样，从而同时探索和平衡这两种类型的不确定性。理论分析表明，Fed2 UCB实现了 $O （ l o g （ T ））$ 遗憾（明确考虑了通信成本），接近标准随机MAB模型的下限，并增加了通信损耗项。作为特例，研究了精确的FMAB模型，其中全局模型是所有局部模型的精确平均值。Fed1-UCB算法从Fed2-UCB退化而来，并实现了一个顺序最优后悔上界，它独立于客户端的数量，具有适当的更新周期选择。对合成数据集和真实数据集的数值模拟证明了所提算法的有效性和效率，并提供了一些有趣的见解。

在这里插入图片描述

问题表述

MAB

在标准随机MAB设置中，单个玩家直接有K个臂， $arm_k$ 的奖励为 $X_k$ （k∈ [K]）独立于σ-次高斯分布采样，平均值为 $µ_k$ 。在时间t，玩家选择一个手臂 $π (t)$ ，目标是在t轮中获得最高的预期累积奖励，其特点是最小化（伪）遗憾：

在这里插入图片描述
(1)

$k_*$ 是最大化奖励手臂，期望取决于环境与决策的随机性，所得遗憾下限：

在这里插入图片描述
(2)

$kl(\mu_k,\mu_*)$ 表示两个分布间的KL散度。

FMAB框架

在这里插入图片描述

在FMAB框架中，多个客户端与同一组K臂（称为“本地臂”）交互。我们将MTA表示为时间t时参与的客户机的数量，这些客户机被标记为1到MTT，以便于讨论（算法中不使用它们）。客户只能与自己的本地MAB模型交互，客户之间没有直接通信。臂k为客户m生成独立观测值 $x_{k,m}$ （观测值非奖励），遵循平均值为 $µ_{k，m}$ 的σ-次高斯分布。注意，Xk，mis只是一个观察，而不是一个奖励。与客户m不同哦的客户n，他们的模型是非IID，因此一般 $µ_{k，m} \ne µ_{k，n}$ 。

服务器。存在一个具有全局随机MAB模型的中央服务器，该服务器具有相同的σ-次高斯奖励分布的K个臂集（称为“全局臂”），平均奖励 $µ_k$ 用于臂K。这个系统的真正回报是在这个全局模型上产生的，因此学习目标是在全局范围内实现的。但是，服务器无法在全局模型上直接观察奖励；她只能与反馈当地观察信息的客户互动。我们考虑了一般的非IID情形，其中局部模型不一定与全局模型相同，并且也做出了客户端和服务器完全同步的共同假设。

通信花费。尽管客户机无法相互通信，但经过一定时间后，他们可以根据本地观察结果将本地“模型更新”传输到服务器，服务器会聚合这些更新，以更准确地估计全局模型。然后将新的估计发送回客户机，以替换以前的估计，以便将来采取行动。然而，就像在FL中一样，通信资源是一个主要的瓶颈，算法必须意识到它的用处。我们在FMAB中加入了这一约束，每次客户机与服务器通信时都会施加一个损失C。

近似模型

全局模型是一个固定但是隐藏的基本事实（不管参与的客户是什么，都是外源生成的）

局部模型是它的IID随机实现。

具体而言，全局臂k的固定平均回报为 $µ_k$ 。对于客户m，其局部臂k的平均奖励 $µ_{k,m}$ ，是一个来自未知分布 $φ_k$ 的样本，该分布是平均值为 $µ_k$ 的 $σ_c$ 次高斯分布。对于不同的客户 $\ne m$ ， $µ_{k,n}$ ，是从 $φ_k$ 中采样的IID。由于局部模型是全局模型的随机实现，因此前者的有限集合不一定何以表示后者。换句话说，如果有M个客户参与，尽管 $，\mathbb{E}[µ_{k，m}]=µ_k$ ，平均局部模型 $\hat{\mu}^M_k = \frac{1}{M}\sum^M_{m=1}\mu_{k,m}$ ，可能与全局模型不一致。具体而言， $\hat{\mu}^M_k$ 不一定等于（甚至接近） $µ_k$ ，这会带来很大的困难。直观地说，服务器需要对足够多的客户机进行采样，以便对全局模型进行统计上的准确估计，但正如我们后面所示，如果没有次优差距知识，就无法先验地获得所需的客户机数量。客户抽样的需要也符合FL中大规模分布客户的特性

激励示例

近似模型捕获了实用认知无线电系统的关键特征，如图所示

在这里插入图片描述

假设总共有K个候选通道，索引为{1，K} 。每个通道的可用性取决于位置， $p_k(x)$ 表示通道k在位置x处可用的概率。基站的目标是从K个候选信道中选择一个信道来服务于区域D中给定的覆盖区域 $\mathcal{D}$ 的所有潜在的蜂窝用户（例如控制信道）。假设用户均匀随机分布在 $\mathcal{D}$ 上，在整个覆盖区域内测量全局信道可用性，如下所示：

在这里插入图片描述

众所周知，在无线研究中，基站自身无法直接对 $p_k$ 进行采样，因为它固定在一个位置。此外，等式(3）需要在整个覆盖区域内进行连续采样，这在实践中是不可能的。实际上，基站只能指示离散位置 $x_m$ 处的蜂窝用户 $m$ 来估计 $p_k(x_m)$ ，然后将来自有限数量用户的观测值聚合为 $\hat{p}_k = \frac{1}{M}\sum^M_{m=1}p_k(x_m)$ 来近似 $p_k$ 。显然，即使 $p_k(x_m)$ 是完美的， $\hat{p}_k$ 也不一定能很好地表示 $p_k$ 。

遗憾定义

在不丧失一般性的情况下，我们假设只有一个最优全局臂 $k_∗$ ( $\mu_* = \mu_k = max_{k\in [K]}\mu_k$ )以及 $\Delta = \mu_* - max_{k\ne k_*}{\mu_k}$ 表示全局模型的次优差距（算法未知）。我们进一步将 $γ_1、··、γ_{T_c}$ 表示为客户端与中央服务器进行上传和下载通信时的时隙。等式(1)中的（伪）遗憾对于单人模型，可将其推广到所有具有额外通信损失的客户端，如下所示：

在这里插入图片描述

其中 $π_m(t)$ 是客户m在时间t选择的arm。在这项工作中，我们的目标是在单人游戏环境中设计具有 $O (l o g (T))$ 遗憾的算法。

对于等式（4）有几点注释。首先，奖赏oracle是针对单个全局最优臂而非不同的局部最优臂定义的。这种选择类似于单人MAB模型中伪后悔的奖励预言是针对整个视界中的一个最优手臂定义的，而不是针对每个时隙中具有最高奖励的手臂定义的。其次，系统的累积奖励是在全局模型上定义的，因为客户只从玩本地bandit游戏中接收观察结果，并且奖励是在系统级全局模型上生成的。

Fed2-UCB for Approximate FMAB

挑战和主要思想

近似模型的首要挑战来自于局部模型只是全局模型的随机实现。即使有所有局部arm的完美信息，也可能无法忠实地生成最优全局arm。我们将这个新问题称为来自客户抽样的不确定性。如何同时处理两类不确定性（客户抽样和arm抽样）是求解近似模型的核心。第二个问题来自非IID局部模型和全局模型之间的冲突。特别是，对于客户的局部模型，全局最优arm可能是次优的，因此客户无法单独正确推断。

通过分析平均局部模型不能如实地表示全局模型的概率来描述客户抽样的不确定性，并说明在不知道次优差距的情况下∆, 该算法无法预先确定所需客户端的数量。因此提出了联邦双UCB（Fed2-UCB），在控制通信成本的同时仔细平衡和权衡了两个不确定性源。

客户采样

在近似模型中，判断局部知识是否充分的关键在于能否正确地推断出最优全局arm。当有M个涉及客户时，全局模型的最佳近似值是平均局部模型，即 $\hat{\mu}^M_k$ 。尽管局部arm的效用可能不同于全局模型，但如果在该平均局部模型中真正的最优全局arm仍然是最优的，即 $\hat{\mu}^M_{k_*} > max_{k\ne k_*}\hat{\mu}^M_k$ 可以利用局部知识实现亚线性遗憾。否则，手臂 $k_∗$ 对于 $\hat{\mu}^M_k$ 不是最优的，并且无论在本地执行多少次探索（即使有完美的本地知识），都无法使用采样的M本地模型找到全局最优arm，因此出现线性遗憾。以下定理描述了用固定数量客户机的平均局部模型表示全局模型的准确性。

定理1：

涉及M个客户时，表示 $P_z = \mathbb{P}(\hat{\mu}^M_{k_*} \le max_{k\in [K]}\hat{\mu}^M_k)$ ,结果如下：

在这里插入图片描述

定理1指出平均局部模型不代表全局模型的概率：即 $\hat{\mu}^M_{k_*} \le max_{k\in [K]}\hat{\mu}^M_k$ 与涉及的客户数M成指数级减少。

因此，为了正确地重建全局模型，必须让足够多的客户机参与进来。更具体地说，为了保证 $P_z=O(1/T)$ ，总体遗憾可以按次线性扩展，用等式（5）对M个客户进行采样就足够了：

$\Omega(\sigma^2_c\Delta^{-2}log(KT)) \quad \quad \quad \quad(5)$
如果等式(5）在整个土匪游戏中都很满意，可以成功地找到最佳手臂。但是，客户无法获得∆. 因此，等式(5)中的要求不能事先保证。

另一方面，涉及太多客户可能会对后悔不利，如等式(4)所示. 具体而言，为了有 $O (l o g (T))$ 遗憾，M应满足：
$M = O (l o g (T))$
比较等式(5）和（6）表明M必须是 $Θ (l o g (T))$ ，以实现全局模型的正确表示，同时保持 $O (l o g (T))$ 遗憾值。

The Fed2-UCB Algorithm

具有等式(5)中的未知要求，在整个游戏中只接纳少数客户是不明智的。另一方面，等式(6)禁止涉及太多客户端以实现 $O (l o g (T))$ 遗憾。在Fed2 UCB算法中，中央服务器在每轮通信后逐渐接纳新客户加入游戏，同时保持本地客户收集观察结果。逐渐增加客户端的方法确保服务器根据bandit游戏的基本统计结构对一组小但具有足够代表性的客户端进行采样。提出的“双UCB”原则同时解决了客户抽样和arm抽样的不确定性。

Fed2-UCB算法流程：
在这里插入图片描述

Fed2-UCB算法在客户端和中央服务器上分阶段同步执行。客户收集观察结果并更新未被宣布为次优的臂的局部估计，即主动臂，而服务器允许新客户端并将局部估计聚合为全局估计，以消除次优主动臂。我们用基数 $K_p$ 表示第 $p$ 阶段的活动臂集 $[K p]$ 。

在阶段 $p$ ，首先添加 $g (p)$ 个新客户与已有的客户一起在自己的本地模型上对当前活动的arm执行 $K_pf(p)$ 次的顺序arm采样，这意味着每个客户对每个活动的arm进行 $f (p)$ 次拉动。因此，手臂 $k∈ [K_p]$ 在第 $p$ 阶段被玩了 $M_pf(p)$ 次，其中 $\sum^p_{q=1}g(p))$ 是 $p$ 阶段的客户总数。接纳新客户的比率不仅由 $g (p)$ 决定，还由 $f (p)$ 决定， $f (p)$ 是客户抽样频率的特征。通过arm抽样的新观察，每个客户m更新其局部估计，即样本平均值 $\bar{\mu}_{k,m}(p),k∈ [K_p]$ ，然后将其作为本地参数更新发送到中央服务器。请注意，上传样本而不是原始样本有利于保护隐私，补充材料中介绍了其他更好的隐私保护方法。

在接收到来自客户端的本地参数更新后，中央服务器首先更新全局估计值，作为每个活动臂的平均值，即 $\bar{\mu}_k(p) = \frac{1}{M(p)}\sum^{M(p)}_{m=1}\bar{\mu}_{k,m}(p),k∈ [K_p]$ 在认识到两个共存的不确定性时，采用“双”置信限 $B_{p,2}$ ：

在这里插入图片描述

$\eta_p =\frac{1}{M(p)^2}\sum^p_{q=1}\frac{g(q)}{F(p)-F(q-1)} \quad \quad F(p) = \sum^p_{q=1}f(q),(F(0) = 0)$
$B_{p.2}$ 的第一项描述了arm采样的不确定性，它说明了平均采样局部模型和精确平均局部模型之间的差距。第二项表示来自客户抽样的不确定性，它捕获精确平均局部模型和（隐藏）全局模型之间的差距。请注意，这两种类型的不确定性并不是相互独立的，因为更多的被接纳的客户可以执行更多的拉力，从而同时减少这两种不确定性。利用全局估计和置信界，由服务器确定消除集EPI，其中包含具有高概率的次优arm：

在这里插入图片描述

然后将集合 $[E p]$ 发送回客户端，然后客户端将这些手臂从其活动手臂集合中移除。此迭代将一直进行，直到只剩下一个活动臂，这是高概率的最佳臂。

Fed2-UCB算法的缺点是探测损耗和通信损耗的结合，并依赖于 $g (p)$ 和 $f (p)$ 的设计。

定理2：

对于 $k\ne k_*$ ，把 $\Delta_k = \mu_* - \mu_k$ 和 $p_k$ 表示为最小整数 $p$ ，以便得到：
在这里插入图片描述

$p_{max} = max_{k\ne k_*}$ ,如果 $max_{t \le T}\{M_t\} \le \beta T$ （ $\beta$ 为常数），Fed2-UCB算法的遗憾满足：

在这里插入图片描述

推论 1

$f (p) = k$ (k是一个常数)， $g(p) = 2^p$ ,Fed2-UCB的渐进遗憾为：

在这里插入图片描述

推论1表明，精心设计的 $f (p) = k$ 和 $g(p) = 2^p$ ，Fed2 UCB可以实现 $O (l o g (T))$ 的遗憾。勘探损失接近等式2中的单人MAB下界，这表明了Fed2-UCB勘探的有效性。因为至少有 $O (l o g (T))$ 个客户端需要参与，如等式所示(5)，推论1中实现的 $O (l o g (T))$ 通信丢失是不可避免的，这证明了通信效率。推论1中的总体遗憾证明，Fed2-UCB可以在平衡通信损耗的同时有效地处理两种类型的不确定性。

特殊情况：精确模型和Fed1 UCB

虽然近似模型同时引入了两种类型的不确定性，但这里我们研究了精确模型的一种特殊情况，其中不存在来自客户抽样的不确定性。相应地，设计并分析了由Fed2-UCB退化而来的Fed1-UCB算法。

精确模型

在精确的模型中，客户端的数量是固定的，即 $M_t = M$ ，∀t。全局模型是所有局部模型的精确平均值，这意味着全局臂k有一个平均奖励 $\mu_k = \frac{1}{M}\sum^M_{m=1}\mu_{k,m}$ 。因此，全局模型可以用局部模型的信息完美地重构，并且只存在arm采样的不确定性。遗憾表达式可以简化为 $\mathbb{E}[\sum^T_{t=1}MX_{k_*}(t) - \sum^T_{t=1}\sum^M_{m=1}X_{\pi_m(t)}(t) + CMT_c]$ 。该模型侧重于优化在整个T时间步长内不发生变化的固定客户机组的性能。换句话说，全局模型不是外来生成的，而是适应相关客户的。以推荐系统为例，一个项目的总体受欢迎程度是其在潜在客户中受欢迎程度的平均值。

Fed1_UCB算法

如果没有客户抽样的不确定性，就没有必要接纳新客户。Fed2-UCB的相同勘探和通信程序在Fed1-UCB中执行，客户不允许。arm消去中使用的置信界也从 $B_{p,2}$ 变为 $B_{p，1} = \sqrt{6σ^2log(T)/(MF(p))}$ ，仅表征arm取样的不确定度。补充材料中给出了Fed1-UCB的完整描述。

Theoretical Analysis

定理3

$k\ne k_*$ 将 $\Delta_k = \mu_* - \mu_k,F(p) = \sum^p_{q=1}f(q),p_k$ 表示为整数 $p$ ,以便:

在这里插入图片描述

$p_{max} = max_{k\ne k_*}\{p_k\}$ ,Fed1-UCB的遗憾满足：

在这里插入图片描述

有点奇怪，等式(8)表明尽管涉及更多的客户机，但会导致更快的收敛（即较小的 $p_k$ ），一般来说，客户执行总体必要的手臂拉动，即 $MF(p_k)$ 独立于M。换句话说，我们可以在没有额外勘探损失的情况下，用客户数量来权衡收敛时间。

推论2

当 $\lceil klog(T)\rceil$ ，κ为常数时，Fed1-UCB算法的渐近遗憾为:

在这里插入图片描述

推论2指出，Fed1-UCB的勘探损失接近等式2中的单人MAB下界。值得注意的是，当 $\lceil klog(T)\rceil$ 时，Fed-1UCB的通信损耗是一个非支配常数，这表明了其通信效率。此外，遗憾是独立的 $M$ 渐近。补充材料中讨论了其他选择 $f (p)$ 时的遗憾反应。