SMO算法

SMO算法（Sequential minimal optimization）要解决的对偶问题

$\begin{aligned}\max \limits_{\alpha} \ -\frac{1}{2} \sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_j y^{(i)} y^{(j)} \left \langle x^{(i)}, x^{(j)} \right \rangle + \sum_{i=1}^{m}\alpha_i\end{aligned}$

$\begin{aligned}\text{s.t.} \ \sum_{i=1}^{m}\alpha_i y_i=0\end{aligned}$

$\quad \quad 0 \leqslant \alpha_i \leqslant C, \ i = 1,...,m$

该问题的收敛条件
$\begin{aligned}\alpha_i=0 &\Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )\geqslant1 \\ \alpha_i=C &\Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )\leqslant1 \\ 0<\alpha_i<C &\Rightarrow y^{(i)}\left ( w^Tx^{(i)}+b \right )=1 \end{aligned}$

SMO算法中的“minimal”表示我们希望一次迭代改变最小数量的 $\alpha_i$ ，在该算法中只需要改变2个

Coordinate ascent
这里写图片描述
坐标上升法的特点是，尽管可能需要比较多的迭代次数，但是每一步迭代的代价非常低

SMO算法采用了Coordinate ascent的思想

考虑满足约束条件的 $\alpha_1,\alpha_2,...,\alpha_m$ ，现在我们采用Coordinate ascent的思想来完成一次迭代，假设我们固定 $\alpha_2,...,\alpha_m$ ，取 $\alpha_1$ 进行优化，这样做可行吗？

回答是不可行，因为约束 $\begin{aligned}\sum_{i=1}^{m}\alpha_i y_i=0\end{aligned}$ 始终是存在的，这意味着固定 $\alpha_2,...,\alpha_m$ ，则 $\alpha_1$ 的取值只能是唯一的，所以不能只取 $\alpha_i$ 进行优化，而应该取一对 $\alpha_i$ ， $\alpha_j$ 进行优化

假设我们固定 $\alpha_3,…,\alpha_m$ ，取 $\alpha_1$ ， $\alpha_2$ 进行优化

扫描二维码关注公众号，回复： 3088934 查看本文章

则 $\alpha_1y^{(1)} + \alpha_2y^{(2)} = \zeta$

以 $\alpha_1$ ， $\alpha_2$ 为坐标轴，画出如下示意图

由于 $\alpha_1$ ， $\alpha_2$ 需要满足下列3个条件
$0 \leqslant \alpha_1 \leqslant C$
$0 \leqslant \alpha_2 \leqslant C$
$\alpha_1y^{(1)} + \alpha_2y^{(2)} = \zeta$

故 $(\alpha_1, \alpha_2)$ 可行的位置为图中红色线段， $\alpha_1$ ， $\alpha_2$ 各自可行的位置为图中绿色线段，换句话说， $\alpha_1$ ， $\alpha_2$ 的取值范围被各自限定在一个区间内

假设我们选取 $\alpha_2$ 进行优化，并设 $\alpha_2$ 可行的上下界分别为 $H$ 和 $L$ ，即 $L \leqslant \alpha_2 \leqslant H$

首先我们利用 $\alpha_1y^{(1)} + \alpha_2y^{(2)} = \zeta$ 消去 $\alpha_1$ ，最终得到一个只包含 $\alpha_2$ 的式子，这个式子的最高次数为 $2$ ，可以直接套用公式求出最优解 $\alpha_2^*$ （初中就已经学过如何求二次函数的最值）

然后还需要检查 $\alpha_2^*$ 是否在区间 $[L, H]$ 内，如果不是，需要进行处理，得到迭代后的 $\alpha_2^{new}$ ，处理方法如下

$\alpha_2^{new} = \left\{\begin{matrix} \begin{align} &H \qquad if \ \alpha_2^* > H \\ &\alpha_2^* \qquad if \ L \leqslant \alpha_2^* \leqslant H \\ &L \qquad if \ \alpha_2^* < L \end{align} \end{matrix}\right.$

再利用 $\alpha_1^{new}y^{(1)} + \alpha_2^{new}y^{(2)} = \zeta$ 求出 $\alpha_1^{new}$ ，此时，本次迭代的工作完成

【重新思考】

假设参数更新前为 $\begin{bmatrix}\alpha_1^{\text{old}} & \alpha_2^{\text{old}} & \alpha_3^{\text{old}} & \alpha_4^{\text{old}} & \cdots & \alpha_m^{\text{old}}\end{bmatrix}$

我们选择变量 $\alpha_1$ 和 $\alpha_2$ 进行更新

参数更新后为 $\begin{bmatrix}\alpha_1^{\text{new}} & \alpha_2^{\text{new}} & \alpha_3^{\text{old}} & \alpha_4^{\text{old}} & \cdots & \alpha_m^{\text{old}}\end{bmatrix}$

那么有
$\begin{aligned}\alpha_1^{\text{old}}+\alpha_2^{\text{old}}=-\sum_{i=3}^{m}\alpha_i^{\text{old}}=\zeta\end{aligned}$
$\begin{aligned}\alpha_1^{\text{new}}+\alpha_2^{\text{new}}=-\sum_{i=3}^{m}\alpha_i^{\text{old}}=\zeta\end{aligned}$

为了计算 $\zeta$ ，可以使用 $\alpha_1^{\text{old}}+\alpha_2^{\text{old}}$ 计算，或者使用 $\begin{aligned}-\sum_{i=3}^{m}\alpha_i^{\text{old}}\end{aligned}$ 计算，显然，计算简单的是后者

这就是为什么需要使用 $\alpha_1^{\text{old}}$ 和 $\alpha_2^{\text{old}}$ 的原因

猜你喜欢