【论文快读】The Multiplicative Weights Update Method: A Meta-Algorithm and Application

这算是早期阅读的paper，既然开了blog，就一并贴上来，感觉report写的还是有点又臭又长，不过总归是在一步一个脚印往前走啦。
链接：https://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf
作者：Sanjeev Arora，Elad Hazan，Satyen Kale
摘要：
abs
有一种叫作Multiplicative Weights的算法思想在许多领域都有应用，以至于可以将其类比于“分而治之”这样的“元算法”。
Multiplicative Weights方法可以解释为：决策者有一个包含n种备选决策的集合，每种决策包含特定的收益m，决策者通过反复地做出选择（同时获得相应收益）来实现长期运行下的最大化收益。尽管这种最佳选择不是先验的，我们依然能够通过维护权重，并依此随机选择来实现一个最佳的方案。具体操作是：每一轮把当前权重和一个与当前轮收益有关的因子做乘法。长此以往，拥有最高收益的方案被选中的概率将显著增大。
这一思想的应用领域包括：凸优化、经济学和博弈论中的“Fictitious Play”、机器学习中Littlestone的Winnow算法、Freund和Schapire的Hedge算法等，计算几何学中Clarkson的研究也是以上思想的一个应用。
作为Multiplicative Weights方法的一种特例，weighted majority算法可以通过Prediction from Expert Advice问题来说明：
一段时期内投资某一支股票，假设每天有下跌或上涨两种状态，每天早晨我们会根据专家集合中的某一位专家的建议预测股票的走势，如果预测错误，记亏损1美元；如果预测正确，记亏损为0。股票的走势是随机的甚至是存在对手参与博弈的。算法的目标是使得长时间下的总损失控制在表现最好的专家附近。算法最初的预想是“少数服从多数”原则，但是由于每一轮中多数专家可能都会犯错，我们转而维护一组专家的权重，每次服从加权后多数专家的意见。
定理1.1中假定：n个专家的初始权重都是1；每轮预测结果为两个可能的答案中的1个；引入参数 $\eta < \dfrac{1}{2}$ ，对于预测错误的专家给予下轮权重乘 $(1-\eta)$ 惩罚。则可以证明T步后weighted majority算法的犯错上界为 $2(1+\eta)m_i^{(T)}+\dfrac{2\ln n}{\eta}$ 。
主要证明思路：
$\omega_i^{(T+1)}\leq \Phi^{(T+1)} \leq n(1-\dfrac{\eta}{2})M^{(T)}$
对于预测错误的专家： $\omega_i^{(t+1)}= (1 −\eta)m_i^{(t)}$ ，
$-\ln(1-\eta)\leq\eta+\eta^2$
$\ln(1-\dfrac{\eta}{2})<-\dfrac{\eta}{2}$ 。
定理2.1及其推论分别假定：对于专家i，第t轮成本 $\in[-1,1]$ ；完成一次决策后每位专家的权重乘 $(1-\eta m_i^{(t)})$ ，然后所有专家权重归一化处理作为下一轮的选择概率。则所有前t轮总成本的期望之和存在上界 $\sum_{t=1}^{T}m_i^{(t)}+\eta\sum_{t=1}^{T}\left|m_i^{(t)}\right|+\dfrac{\ln n}{\eta}$
主要证明思路：
$\Phi^{(T+1)}\leq\Phi^{(T)}e^{-\eta\boldsymbol{m}^{(T)}\boldsymbol {p}^{(T)}}\leq \Phi^{(1)}e^{-\eta\sum_{t=1}^{T}\boldsymbol{m}^{(t)}\boldsymbol{p}^{(t)}}$ ,
$\Phi^{(T+1)}\geq \omega_i^{(T+1)}=\prod_{t\leq T}(1 −\eta m_i^{(t)})\geq(1-\eta)^{\prod_{\geq0}m_i^{(t)}}(1+\eta)^{-\prod_{<0}m_i^{(t)}}$
$1-x<e^{-x}得到-\ln(1-\eta)\leq\eta+\eta^2$
定理2.3中的hedge算法用指数乘数代替了定理2.1中的线性乘数，得到了上界。在某些应用场景下，该表达式具有更强的约束。
前述定理都是通过根据损失，对犯错专家进行了降权惩罚。换一个角度，如果对预测正确的专家进行升权奖励，也能得到类似的结果，定理2.5及其推论给出了所有收益期望的下界，证明方法类似。
在实际应用中，MW主要解决约束优化问题，解决思路为：根据约束得到一个decision，根据对domain中的各个点的满足情况确定该decision的cost，降低已经满足约束的点的权重，这样我们就能重点关注尚未满足的点，最终实现完全拟合。于是就有了算法的两个主要步骤：选出成本最大的点，据此来更新权重。

应用1 线性规划问题的解法：Winnow算法。

对于数据集 $(\boldsymbol{a}_1, l_1)$ , $(\boldsymbol{a}_2, l_2)$ , ….. $(\boldsymbol{a}_m, l_m)$ ， $\boldsymbol{a}_i$ 是n维向量， $l_i$ 在±1中取值，由分类器 $Sigmoid(\boldsymbol{a}_i\boldsymbol{x})$ 判决，等效为判决 $\boldsymbol{a}_i\boldsymbol{x}$ 的正负性的线性规划问题。类比于前述专家咨询问题，每个特征比作一个专家，每个数据比作一轮迭代，分类器视作对于专家给出选择的一个分布。
反复使用增益形式的算法进行迭代，直至无错误发生。由推论2.6可知，得到较好的解的迭代次数为 $T<\dfrac{4\rho^2 \ln n}{\epsilon^2}$ 。

应用2：零和博弈的近似解

问题描述：两个人（行玩家和列玩家）在一个收益矩阵 $\boldsymbol{A}$ 中进行游戏，行玩家执行策略i，列玩家以 $\boldsymbol{q}$ 的概率在各列中选择j并获得收益 $\boldsymbol{A}_{ij}$ ，然后行玩家以 $\boldsymbol{p}$ 的概率选择行，得到收益期望 $\boldsymbol{A}(\boldsymbol{p},j)$ ，依次类推。对于列玩家而言，自己获得最大收益j，并使对方获得最小收益的策略表示为 $\min_\boldsymbol{p}\max_j\boldsymbol{A}(\boldsymbol{p},j)$ ；先使对方获得最小收益，然后自己从中获取最大收益的策略表示为 $\max_\boldsymbol{q}\min_i\boldsymbol{A}(i,\boldsymbol{q})$ ，根据冯诺依曼最大最小原理，二者的效果是相同的，再引入容错参数 $\epsilon$ 之后我们的ORACLE算法可以找出一个最佳的回复策略。定理3.1给出了该策略的迭代时间

应用5：NP难解问题的O(log n)近似解：

对于NP难解问题，通常通过三个步骤来求解 $O(\log n)$ 近似解：LP solving、randomized rounding、derandomization。Young通过MW算法将三个过程统一起来，同时提高了执行的效率。
化简过程如下：一系列任意有界独立随机变量 $X_1, X_2,$ ……可以由它们的和的期望简化表示（Chernoff-Hoeffding bound技术， $E[e^{\lambda\sum X_i}]$ ），进一步 $Pr(\sum X_i>m)=Pr(e^{\eta\sum X_i}>e^{\lambda m})<\dfrac{E[e^{\eta\sum X_i}]}{e^{\lambda m}}$ （Markov不等式， $Pr(X>a)<\dfrac{E(X)}{a}$ ），所以把 $E[e^{\eta\sum X_i}]$ 作为最坏估计，并依次选择来减小该最差估计即可。在此算法中，随机变量 $E[e^{\eta\sum X_i}]$ 中已经确定的部分就是MW算法中的权重。
以经典的集合覆盖问题为例，需要覆盖的全集为 $\boldsymbol{U}=\{1, 2, …n\}$ 中的每个元素为1个约束，每次迭代从子集集合 $\boldsymbol{C}$ 中选取1个子集。第t次迭代中， $w^{(t)}$ 表示所有覆盖子集 $\{\boldsymbol{C}_i\}$ 的选择概率， $\boldsymbol{m}^i$ 表示各自的成本，定义为包含在中的尚未覆盖元素的总数在所有未覆盖元素中的占比。取 $\eta=1$ ， $\omega_i^{(t+1)}=\omega_i^{(t)}(1-m_i^{(t)})$ ，根据定理2.1，若至少需要opt个子集方能覆盖 $\boldsymbol{U}$ ，则可以证明经过 $\ln(n)[opt]$ 次迭代后即可完成覆盖。

应用6：学习理论和boosting

学习问题具有如下形式：在一个区域X上的数据集 $\boldsymbol{x}$ ，以一定的concept c(x)映射到{0,1}，我们通过学习到假设函数h(x)，定义error为 $\boldsymbol{E}[|h(x)-c(x)|]$ 。
Boosting方法可以借助MW算法证明：如果一个concept类的γ-weak learning algorithm存在，那么一定也能找到一个对应的strong learning algorithm。

应用8：Hanna算法

对象——决策问题，记 $m_I^{(t)}$ 表示第t次决策中备选选项i的cost。
决策依据：在第t次选择使得 $L_i^{(t)}+r_i$ 最小的选项i，其中 $L_i^{(t)}=\sum_{\tau<t}m_i^{(\tau)}$ ， $r_i$ 为随机数。
由引理3.10可知，取 $r_i=\dfrac{1}{\eta}\ln\ln(u_i)$ （ $u_i$ 为[0,1]上的随机数）时，选择到某一特定选项i的概率为 $\dfrac{e^{-\eta L_i^{(t)}}}{\sum_je^{-\eta L_j^{(t)}}}$ ，表达式与随机数的选取无关，分母与每一次选出的选项无关，分子仅与每个选项的历史性能有关，多次运行之下，即可保证成本更高的选项有更小的概率被选到。

应用9：在线凸优化

问题描述：在n维连续凸紧的判决域 $\boldsymbol{K}$ 上，每轮选取一个点 $\boldsymbol{p}^{(t)}$ 对读入数据进行判决，记损失函数 $f^{(t)}(\boldsymbol{p}^{(t)})=\boldsymbol{m}^{(t)}\boldsymbol{p}^{(t)}$ ， $\rho=\max_{\boldsymbol{p}\in\boldsymbol{K}}\max_t\left \|\nabla f^{(t)}(\boldsymbol{p})\right \|_{\infty}$ ，t=T时的regret为 $\sum_{t=1}^{T}f^{(t)}(\boldsymbol{p}^{(t)})-\min_{\boldsymbol{p}\in\boldsymbol{K}}\sum_{t=1}^{T}f^{(t)}(\boldsymbol{p}^{(t)})$ 。
定义 $\eta=\sqrt{\dfrac{\ln n}{T}}$ ， $\boldsymbol{m}^{(t)}=\dfrac{1}{\rho}\nabla f^{(t)}(\boldsymbol{p}^{(t)})$ 由推论2.2可以证明该regret具有上界 $2\rho\sqrt{T\ln n}$ 。
定理4.1证明，以上所有MW算法应用的时间复杂度处于 $[\min_i\sum_{t=1}^{T}m_I^{(t)}+\Omega(\sqrt{T\ln(n)}), \min_i\sum_{t=1}^{T}m_I^{(t)}+O()]$ ,无法获得更进一步的改进优化。
文章最后推广了矩阵形式的WM算法，描述为：定义成本矩阵 $\boldsymbol{M}^{(t)}$ ，维护权重矩阵 $\boldsymbol{W}^{(t)}$ ，初始化 $\boldsymbol{W}^{(1)}$ 为n阶单位矩阵 $\boldsymbol{I}_{n}$ ，记权重更新规则 $\boldsymbol{W}^{(t+1)}=\boldsymbol{W}^{(t)}\dot{}e^{-\eta\boldsymbol{M}^{(t)}}$ (·表示标量积)，定义密度矩阵 $\boldsymbol{P}^{(t)}=\dfrac{\boldsymbol{W}^{(t)}}{Tr(\boldsymbol{W}^{(t)})}$ ，类比于定理2.3，定理7.1表明t轮之后总成本的期望 $\sum_{\tau=1}^t\boldsymbol{M}^{(\tau)}\boldsymbol{P}^{(\tau)}$ 具有相似形式的上界，并介绍了矩阵WM算法在半正定规划问题求解中的应用。