用ADMM求解大型机器学习问题用ADMM求解大型机器学习问题

[本文链接：http://www.cnblogs.com/breezedeus/p/3496819.html，转载请注明出处]

从等式约束的最小化问题说起：

上面问题的拉格朗日表达式为：

也就是前面的最小化问题可以写为：

为了弱化对偶上升方法的强假设性，一些研究者在上世纪60年代提出使用扩展拉格朗日表达式（augmented Lagrangian）代替原来的拉格朗日表达式：

其中

注意，乘子法里把第二个式子里的

乘子法弱化了对偶上升法的收敛条件，但由于在x-minimization步引入了二次项而导致无法把x分开进行求解（详见[1])。而接下来要讲的Alternating Direction Method of Multipliers (ADMM)就是期望结合乘子法的弱条件的收敛性以及对偶上升法的可分解求解性。ADMM求解以下形式的最小化问题：

其对应的扩展拉格朗日表达式为：

ADMM包括以下迭代步骤：

ADMM其实和乘子法很像，只是乘子法里把

定义新变量

下面让我们看看ADMM怎么被用来求解大型的机器学习模型。所谓的大型，要不就是样本数太多，或者样本的维数太高。下面我们只考虑第一种情况，关于第二种情况感兴趣的读者可以参见最后的参考文献[1, 2]。样本数太多无法一次全部导入内存，常见的处理方式是使用分布式系统，把样本分块，使得每块样本能导入到一台机器的内存中。当然，我们要的是一个最终模型，它的训练过程利用了所有的样本数据。常见的机器学习模型如下：