SVM系列理论（十一）SMO序列最优化算法

支持向量机的的学习问题可以形式化为求解凸二次规划问题。求解凸二次规划问题可以借用一些凸二次规划求解工具，但这需要强大的计算能力支持。Platt提出SMO序列最小优化算法，可以高效地计算出对偶问题中最佳的拉格朗日乘子 $\alpha^*$ .

1. SMO 序列最小化算法的基本思想

SVM的对偶问题可以表示为：

$min_\alpha \ \ \ \ \frac{1}{2}\sum^{N}_{j=1} \alpha_i\alpha_jy_iy_jK(x_i \cdot x_j) - \sum^{N}_{i=1}\alpha_i$

$s.t. \ \ \ \ \sum^{N}_{i=1} \alpha_iy_i =0$

$\ \ \ \ \ \ \ \ \ \ \ \ 0 \leq\alpha_{i}^{} \leq C, i = 1,2,..., N\ \ \ \ \ \ \ \ \ (1)$

对应的KKT条件为：

$\alpha_{i}^{} = 0 \Rightarrow y_ig(x_i) \geq 1\ \ \ \ \ \ \ \ \$

$0 <\alpha_{i}^{} < C \Rightarrow y_ig(x_i) = 1\ \ \ \ \ \ \ \ \$

$\alpha_{i}^{}= C \Rightarrow y_ig(x_i) \leq 1\ \ \ \ \ \ \ \ \$

SMO算法是一种快速学习的算法，其思想是：

不断地选择两个两个变量 $\alpha_1, \alpha_2$ ，将上面（1）这个二次规划问题分解成一个只有两个变量的二次规划子问题，然后对二变量子问题进行解析求解，直到所有变量都满足KKT条件为止。由于每个子问题都有解析解，计算很快，所以很高效。

重要定理：KKT条件是最优化问题的充分必要条件。

2. 选择两个变量的方法

上面说到SMO算法的思想，那么第一步应该明确怎么选择两个变量 $\alpha_1, \alpha_2$ 。

2.1 第一个变量的选择

选择第一个变量需要选择在训练集中违反KKT条件最严重的样本点。这很容易理解，因为我们最终的目标是让所有的变量 $\alpha$ 满足KKT条件，选择违反KKT最大的作为优化对象。

一般来说，我们首先选择违反 $0 <\alpha_{i}^{} < C \Rightarrow y_ig(x_i) = 1$ 这个条件的 $\alpha$ 。
如果这些支持向量都满足KKT条件，再选择违反 $\alpha_{i}^{}= C \Rightarrow y_ig(x_i) \leq 1$ 和 $\alpha_{i}^{} = 0 \Rightarrow y_ig(x_i) \geq 1$ 的点。

2.2 第二个变量的选择

为了选择第二个变量，首先定义函数 $g(x_i) =\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b$

并把预测值 $g(x_i)$ 与真实值 $y_i$ 之差记为 $E_i$ ，则

$E_i = g_i(x) - y_i = (\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b)-y_i; \ \ \ \ \ \ \ i=1,2$

第二个变量 $\alpha_{2}$ 的选择标准就是是让 $|E_1-E_2|$ 有足够大的变化。

假设已经找到了 $\alpha_{1}$ ,由于 $\alpha_{1}$ 定了,所以 $E_{1}$ 也确定了。所以要想 $|E_1-E_2|$ 最大，只需要
- 在 $E_{1}$ 为正时，选择最小的 $E_{i}$ 作为 $E_{2}$ ，
- 在 $E_{1}$ 为负时，选择最大的 $E_{i}$ 作为 $E_{2}$ ，因此可以将所有的 $E_{i}$ 保存下来加快迭代。
如果上面找到的 $\alpha_{2}$ 不能让目标函数有足够的下降，可以遍历支持向量,直到目标函数有足够的足够的下降.
如果所有的支持向量做α2都不能让目标函数有足够的下降，可以跳出循环，重新选择α1

3. SMO序列最小化算法的基本步骤

现在我们知道了选择变量的方法，那么就要把原来（1）中的凸二次优化问题转化为两个变量的二次规划子问题，然后对二变量子问题进行解析求解。

第一步, 使用2中方法选取两个变量 $\alpha_1, \alpha_2$ (选取的量应该是违反KKT比较大的变量，这样优化效果好), 其他的 $\alpha_i$ 视为常量. 求解新的未经剪辑时 $\alpha_2^{new,uncut}$ .

最优化问题可以写为：

$min_\alpha \ \ \ \ W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2 + y_1y_2K_{12}\alpha_1\alpha_2 -(\alpha_1+\alpha_2) +y_1\alpha_1\sum^{N}_{j=3} \alpha_iy_iK_{i1} +y_2\alpha_2\sum^{N}_{j=3} \alpha_iy_iK_{i2}\ \ \ \ \ \ \ \ \ (2)$

$s.t. \ \ \ \ \ \ \ \alpha_1y_1+\alpha_2y_2=-\sum^{N}_{i=3} \alpha_iy_i = \xi\ \ \ \ \ \ \ \ \ (3)$

$\ \ \ \ \ \ \ \ \ \ \ \ 0\leq\alpha_i \leq C, i = 1,2 \ \ \ \ \ \ \ \ \ (4)$

如果不考虑 $0\leq\alpha_i \leq C, i = 1,2 \$ 的约束条件下，利用（3）代入（2），得到 $\alpha_2$ 的单变量问题。

再对 W 求导并令其为 0，可以求到一个 $\alpha_2$ 解。我们称这个解是未经剪辑时的新解 $\alpha_2^{new,uncut}$ ：

$\alpha_2^{new,uncut} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{\eta }\ \ \ \ \ \ \ \ \ (5)$

注：

$g(x_i) =\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b \ \ \ \ \ \ \ \ \ (6)$

$\eta = K_{11}+K_{22}-2K_{12}=||\phi(x_1) - \phi(x_2)||^2\ \ \ \ \ \ \ \ \ (7)$

$E_i = g(x_i) - y_i = (\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b)-y_i; \ \ \ \ \ \ \ i=1,2\ \ \ \ \ \ \ \ \ (8)$

第二步，按照下式求出剪辑后的 $\alpha_2^{new}$ ,进而由求出 $\alpha_1^{new}$

实际上，我们还必须考虑约束条件 $0\leq\alpha_i \leq C, i = 1,2 \$ ，因此考虑后得到：

$\alpha_2^{new}= \begin{cases} H& {L \leq \alpha_2^{new,unc} > H}\\ \alpha_2^{new,unc}& {L \leq \alpha_2^{new,unc} \leq H}\\ L& {\alpha_2^{new,unc} < L} \end{cases}\ \ \ \ \ \ \ \ \ (9)$

$\alpha_1^{new}= \alpha_1^{old} + y_1y_2(\alpha_2^{old}-\alpha_2^{new })\ \ \ \ \ \ \ \ \ (10)$

注：

具体推导参考李航《统计学习方法》或戳

经历了前两步，我们已经或得了新的 $\alpha_1, \alpha_2$ 的值，那么什么时候终止呢？这需要在设定的一个精度e下检验终止条件。

第三步，计算 $b^{new}$ 和 $E_i^{new}$ ，方便下次选择变量.

在每次完成两个变量的优化之后，需要重新计算阈值 $b^{new}$ 和差值 $E_i^{new}$

$b_1^{new} = -E_1 -y_1K_{11}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{21}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}\ \ \ \ \ \ \ \ \ (11)$

$b_2^{new} = -E_2 -y_1K_{12}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{22}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}\ \ \ \ \ \ \ \ \ (12)$

$b^{new} = \frac{b_1^{new} + b_2^{new}}{2}\ \ \ \ \ \ \ \ \ (13)$

$E_i^{new} = \sum\limits_{S}y_j\alpha_jK(x_i,x_j) + b^{new} -y_i\ \ \ \ \ \ \ \ \ (14)$

S指所有的支持向量集合。
注：

具体推导参考李航《统计学习方法》或戳

第四步，在精度 $e$ 范围内检查是否满足如下的终止条件,如果满足则结束，返回最佳解 $\alpha_1^{new},\alpha_1^{new}$ ,否则转到第二步

$\sum\limits_{i=1}^{N}\alpha_iy_i = 0\ \ \ \ \ \ \ \ \ (15)$

$0 \leq \alpha_i \leq C, i =1,2...N\ \ \ \ \ \ \ \ \ (16)$

$\alpha_{i}^{new} = 0 \Rightarrow y_ig(x_i) \geq 1\ \ \ \ \ \ \ \ \ (17)$

$0 <\alpha_{i}^{new} < C \Rightarrow y_ig(x_i) = 1\ \ \ \ \ \ \ \ \ (18)$

$\alpha_{i}^{new}= C \Rightarrow y_ig(x_i) \leq 1\ \ \ \ \ \ \ \ \ (19)$