从零开始-Machine Learning学习笔记(12)-SMO算法解析

SMO-Sequential Minimal Optimization，序列最小优化，SMO的基本思路就是：先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 的极值。但是问题中存在约束条件： $\sum_{i=0}^{m}\alpha_iy_i=0$ 。如果固定了 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 可以由其他的变量导出。于是，一次只留一个参数，固定其余参数的方法在这里是不适用的，但是这个思想却给了我们不错的启发。那么，SMO可以每次选择两个变量 $\alpha_i$ 和 $\alpha_j$ ，并固定其他参数。这样，在参数初始化之后，SMO不断迭代重复下面的步骤，直至收敛：

选取一对新的 $\alpha_i$ 和 $\alpha_j$ ;
固定 $\alpha_i$ 和 $\alpha_j$ 之外的参数，求解前面的优化问题，获取更新后的 $\alpha_i$ 和 $\alpha_j$ 。

假设我们选择 $\alpha_1$ 与 $\alpha_2$ 是变量，其余的 $\alpha_i$ 是定值，常数，那么原来的目标函数：

$\begin{array}{l} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \\ s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1, 2, \dots N \end{array}$ $\begin{array}{l} \mathop {\min }\limits_\alpha \;\;\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}K\left( {{x_i} \cdot {x_j}} \right)} } - \sum\limits_{i = 1}^N {{\alpha _i}} \\ s.t.\;\;\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0\\ \;\;\;\;\;0 \le {\alpha _i} \le C,\;\;\;\;\;i = 1,2, \ldots N \end{array}$

就变为对 $\alpha_1$ 与 $\alpha_2$ 的优化：

\begin{array}{l} min_{α_{1}, α_{2}} W (α_{1}, α_{2}) \end{array}

$\begin{array}{l} \mathop {\min }\limits_{{\alpha _1},{\alpha _2}} W\left( {{\alpha _1},{\alpha _2}} \right)\\ \end{array}$

1. 原目标函数化简

我们来逐步化简原来的目标函数，其中只有 $\alpha_1$ 与 $\alpha_2$ 是变量，其余的都是常数：

\begin{array}{l} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \end{array}

我们分别取

$i=1,j=1$

$i=1,j=2$

$i=1,j\neq1,2$

$j=1,i\neq1,2$

$i=2,j=1$

$i=2,j=2$

$i=2,j \neq1,2$

$j=2,i\neq1,2$

$i\neq1,2,j\neq1,2$

这样我们就可以把目标函数化成只有变量 $\alpha_1$ 与 $\alpha_2$ ，其余的项都可以合并为常数C：

\begin{array}{l} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \\ = min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{1} α_{2} y_{1} y_{2} K_{12} + 2 \sum_{j = 3}^{N} α_{1} α_{j} y_{1} y_{j} K_{1 j} \\ + α_{2} α_{1} y_{2} y_{1} K_{21} + α_{2}^{2} K_{22} + 2 \sum_{j = 3}^{N} α_{2} α_{j} y_{2} y_{j} K_{2 j} + C_{1}] \\ - (α_{1} + α_{2}) - C_{2} \\ = min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{2}^{2} K_{22} + 2 α_{1} α_{2} y_{1} y_{2} K_{12} + 2 \sum_{j = 3}^{N} α_{1} α_{j} y_{1} y_{j} K_{1 j} \\ + 2 \sum_{j = 3}^{N} α_{2} α_{j} y_{2} y_{j} K_{2 j}] - (α_{1} + α_{2}) + C \\ = min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{2}^{2} K_{22} + 2 α_{1} α_{2} y_{1} y_{2} K_{12} + 2 α_{1} y_{1} v_{1} + 2 α_{2} y_{2} v_{2}] - (α_{1} + α_{2}) + C \end{array}

$\begin{array}{l} \mathop {\min }\limits_\alpha \;\;\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}K\left( {{x_i} \cdot {x_j}} \right)} } - \sum\limits_{i = 1}^N {{\alpha _i}} \\ =\mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_1\alpha_2y_1y_2K_{12}+2\sum_{j=3}^{N}\alpha_1\alpha_jy_1y_jK_{1j}\\\ \ \ \ + \alpha_2\alpha_1y_2y_1K_{21}+\alpha_2^2K_{22}+2\sum_{j=3}^{N}\alpha_2\alpha_jy_2y_jK_{2j}+C_1]\\\ \ \ \ -(\alpha_1+\alpha_2)-C_2 \\ =\mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+2\sum_{j=3}^{N}\alpha_1\alpha_jy_1y_jK_{1j}\\\ \ \ \ +2\sum_{j=3}^{N}\alpha_2\alpha_jy_2y_jK_{2j}]-(\alpha_1+\alpha_2)+C\\ =\mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+2\alpha_1y_1v_1+2\alpha_2y_2v_2]-(\alpha_1+\alpha_2)+C \end{array}$
其中：

v_{1} = \sum_{j = 3}^{N} α_{j} y_{j} K_{1 j} v_{2} = \sum_{j = 3}^{N} α_{j} y_{j} K_{2 j}

$v_1 =\sum_{j=3}^{N}\alpha_jy_jK_{1j}\\ v_2 =\sum_{j=3}^{N}\alpha_jy_jK_{2j}$
于是，我们的目标函数就转化为上式的样子。

2. 解的范围

要求解上述的优化问题，必定先确定解的范围，根据原来的约束条件我们知道：

α_{1} y_{1} + α_{2} y_{2} = K 0 < α_{1} < C 0 < α_{2} < C

$\alpha_1y_1+\alpha_2y_2 = K \\ 0<\alpha_1<C\\ 0<\alpha_2<C$
其中我们知道

y_{i}^{2} = 1

$y_i^2=1$ ，所以对于第一个约束条件我们可以有两种表示方式：

$y_1=y_2时，\alpha_1+\alpha_2=K$

$y_1\neq y_2时，\alpha_1-\alpha_2=K$

这里写图片描述

k具体是多少我们并不关心，但是我们知道α1和α2的取值都落在途中的直线上。k无非就是一个截距，随着k的变化，这根直线在方框内会上下移动，交点也变，但是一定要在方框范围内，所以边界一定会落在方框与直线的交点上。设L为α2可能的最小取值，H为α2可能的最大取值,那么有：

$y_1=y_2时，\alpha_1+\alpha_2=K，则\alpha_2=K-\alpha_1$

我们都知道 $0<\alpha_1<C,0<\alpha_2<C$ ;

当 $\alpha_1=C$ 时， $\alpha_2$ 取得最小值,即 $\alpha_2=K-C$ ,但是， $0<\alpha_2$ ,所以最小值在这两者中取得，于是：

$L = m a x {0, K - C} = m a x {0, α_{1} + α_{2} - C}$ $L = max\{0,K-C\}=max\{0,\alpha_1+\alpha_2-C\}$
当 $\alpha_1=0$ 时， $\alpha_2$ 取得最大值,即 $\alpha_2=K$ 但是， $\alpha_2<C$ ,所以最大值在这两者中取得，于是：
$H = m i n {K, C} = m i n {α_{1} + α_{2}, C}$ $H=min\{K,C\}=min\{\alpha_1+\alpha_2,C\}$
$y_1\neq y_2时，\alpha_1-\alpha_2=K，则\alpha_2=\alpha_1-K$

我们都知道 $0<\alpha_1<C,0<\alpha_2<C$ ;

当 $\alpha_1=0$ 时， $\alpha_2$ 取得最小值,即 $\alpha_2=-K$ 但是， $0<\alpha_2$ 以最小值在这两者中取得，于是：

L = m a x {0, - K} = m a x {0, α_{2} - α_{1}}

$L = max\{0,-K\}=max\{0,\alpha_2-\alpha_1\}$

当 $\alpha_1=C$ 时， $\alpha_2$ 取得最大值,即 $\alpha_2=C-K$ 但是， $\alpha_2<C$ ,所以最大值在这两者中取得，于是：

H = m i n {C, C - K} = m i n {C, C + α_{2} - α_{1}}

$H=min\{C,C-K\} = min\{C,C+\alpha_2-\alpha_1\}$

3.求解过程

先将 $\alpha_1$ 用 $\alpha_2$ 来表示，因为 $\alpha_1y_1+\alpha_2y_2 = k（const）$ ，两边同时乘以 $y_1$ ,于是有：

α_{1} = (k - α_{2} y_{2}) y_{1}

$\alpha_1 = (k-\alpha_2y_2)y_1$
带入到我们之前化简的目标函数中，那么目标函数就变为只有变量

α_{2}

$\alpha_2$ 的优化问题了：

\begin{array}{l} min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{2}^{2} K_{22} + 2 α_{1} α_{2} y_{1} y_{2} K_{12} + 2 α_{1} y_{1} v_{1} + 2 α_{2} y_{2} v_{2}] - (α_{1} + α_{2}) + C \\ = min_{α} \frac{1}{2} [((k - α_{2} y_{2}) y_{1})^{2} K_{11} + 2 (k - α_{2} y_{2}) α_{2} y_{2} K_{12} \\ + 2 (k - α_{2} y_{2}) v_{1} + 2 α_{2} y_{2} v_{2}] - ((k - α_{2} y_{2}) y_{1} + α_{2}) + C \end{array}

$\begin{array}{l} \mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+2\alpha_1y_1v_1+2\alpha_2y_2v_2]-(\alpha_1+\alpha_2)+C\\ =\mathop {\min }\limits_\alpha \frac{1}{2}[( (k-\alpha_2y_2)y_1)^2K_{11}+2 (k-\alpha_2y_2)\alpha_2y_2K_{12}\\ \ \ \ +2 (k-\alpha_2y_2)v_1+2\alpha_2y_2v_2]-( (k-\alpha_2y_2)y_1+\alpha_2)+C \end{array}$
其中，v1与v2需要变换一下，不能直接运算，因为SVM的模型为：

f (x) = w^{T} x + b = \sum_{i = 1}^{N} α_{i} y_{i} K (x_{i}, x_{j}) + b, 则 f (x_{1}) = α_{1} y_{1} K_{11} + α_{2} y_{2} K_{12} + \sum_{i = 3}^{N} α_{i} y_{i} K (x_{i}, x_{j}) + b = α_{1} y_{1} K_{11} + α_{2} y_{2} K_{12} + v_{1} + b f (x_{2}) = α_{1} y_{1} K_{12} + α_{2} y_{2} K_{22} + \sum_{i = 3}^{N} α_{i} y_{i} K (x_{i}, x_{j}) + b = α_{1} y_{1} K_{12} + α_{2} y_{2} K_{22} + v_{2} + b

$f(x) = w^Tx+b=\sum_{i=1}^{N}\alpha_iy_iK(x_i,x_j)+b ,则\\ f(x_1) = \alpha_1y_1K_{11}+\alpha_2y_2K_{12}+\sum_{i=3}^{N}\alpha_iy_iK(x_i,x_j)+b =\alpha_1y_1K_{11}+\alpha_2y_2K_{12}+v_1+b \\ f(x_2) = \alpha_1y_1K_{12}+\alpha_2y_2K_{22}+\sum_{i=3}^{N}\alpha_iy_iK(x_i,x_j)+b =\alpha_1y_1K_{12}+\alpha_2y_2K_{22}+v_2+b$
所以可以间接求出v1与v2为：

v_{1} = f (x_{1}) - α_{1} y_{1} K_{11} - α_{2} y_{2} K_{12} - b = f (x_{1}) - (k - α_{2} y_{2}) K_{11} - α_{2} y_{2} K_{12} - b v_{2} = f (x_{2}) - α_{1} y_{1} K_{12} - α_{2} y_{2} K_{22} - b = f (x_{2}) - (k - α_{2} y_{2}) K_{12} - α_{2} y_{2} K_{22} - b

$v_1 = f(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}-b =f(x_1)- (k-\alpha_2y_2)K_{11}-\alpha_2y_2K_{12}-b\\ v_2 = f(x_2)-\alpha_1y_1K_{12}-\alpha_2y_2K_{22}-b=f(x_2)- (k-\alpha_2y_2)K_{12}-\alpha_2y_2K_{22}-b \\$
所以，此时目标函数就只是一元函数，我们对其求倒数，并使其为0，就可以求出

α_{2}

$\alpha_2$ :

\begin{array}{l} \frac{\partial W}{\partial α_{2}} = \frac{1}{2} [2 ((k - α_{2} y_{2}) y_{1}) (- y_{1} y_{2}) K_{11} + 2 α_{2} K_{22} + 2 (k - 2 α_{2} y_{2}) y_{1} y_{1} y_{2} K_{12} + 2 (- y_{1} y_{2}) α_{2} (y_{1} y_{2}) K_{12} \\ + 2 (- y_{1} y_{2}) y_{1} v_{1} + 2 y_{2} v_{2}] - (- y_{1} y_{2} + 1) \\ = (α_{2} - k y_{2}) K_{11} + α_{2} K_{22} + (k y_{2} - 2 α_{2}) K_{12} - y_{2} v_{1} + y_{2} v_{2} + y_{1} y_{2} - 1 \\ = α_{2} (K_{11} + K_{22} - 2 K_{12}) - k y_{2} K_{11} + k y_{2} K_{12} - y_{2} v_{1} + y_{2} v_{2} + y_{1} y_{2} - 1 \\ = α_{2} (K_{11} + K_{22} - 2 K_{12}) - k y_{2} K_{11} + k y_{2} K_{12} - y_{2} (v_{1} - v_{2}) + y_{1} y_{2} - 1 = 0 \end{array}

$\begin{array}{l} \frac{\partial W}{\partial \alpha_2} = \frac{1}{2}[2( (k-\alpha_2y_2)y_1)(-y_1y_2)K_{11}+2\alpha_2K_{22}+2(k-2\alpha_2y_2)y_1y_1y_2K_{12}+2(-y_1y_2)\alpha_2(y_1y_2)K_{12}\\ \ \ \ \ \ \ \ \ \ \ +2(-y_1y_2)y_1v_1+2y_2v_2]-(-y_1y_2+1)\\ =(\alpha_2-ky_2)K_{11}+\alpha_2K_{22}+(ky_2-2\alpha_2)K_{12}-y_2v_1+y_2v_2+y_1y_2-1\\ =\alpha_2(K_{11}+K_{22}-2K_{12})-ky_2K_{11}+ky_2K_{12}-y_2v_1+y_2v_2+y_1y_2-1\\ =\alpha_2(K_{11}+K_{22}-2K_{12})-ky_2K_{11}+ky_2K_{12}-y_2(v_1-v_2)+y_1y_2-1=0 \end{array}$

此时我们把v1与v2带入就可以得到迭代公式：

α_{2}^{*} (K_{11} + K_{22} - 2 K_{12}) = k y_{2} (K_{11} - K_{12}) + y 2 (v_{1} - v_{2}) - y_{1} y_{2} + 1 = k y_{2} (K_{11} - K_{12}) + y 2 [f (x_{1}) - f (x_{2}) + (k - α_{2} y_{2}) (K_{12} - K_{11}) + α_{2} y_{2} (K_{22} - K_{12})] - y_{1} y_{2} + y_{2}^{2} = α_{2} (K_{11} + K_{22} - 2 K_{12}) + y_{2} [(f (x_{1}) - y_{1}) - (f (x_{2}) - y_{2})]

$\alpha_2^*(K_{11}+K_{22}-2K_{12}) = ky_2(K_{11}-K_{12})+y2(v_1-v_2)-y_1y_2+1\\ =ky_2(K_{11}-K_{12})+y2[f(x_1)-f(x_2)+(k-\alpha_2y_2)(K_{12}-K_{11})+\alpha_2y_2(K_{22}-K_{12})]-y_1y_2+y_2^2\\ =\alpha_2(K_{11}+K_{22}-2K_{12})+y_2[(f(x_1)-y_1)-(f(x_2)-y_2)]$
于是我们可以得到递推公式：

α_{2}^{*} = α_{2} + \frac{y_{2} [(f (x_{1}) - y_{1}) - (f (x_{2}) - y_{2})]}{K_{11} + K_{22} - 2 K_{12}} = α_{2} + y_{2} \frac{E_{1} - E_{2}}{η}

$\alpha_2^*=\alpha_2+\frac{y_2[(f(x_1)-y_1)-(f(x_2)-y_2)]}{K_{11}+K_{22}-2K_{12}}=\alpha_2+y_2\frac{E_1-E_2}{\eta}$
其中

E_{j}

$E_j$ 是预测值与实际值之差，

η = K_{11} + K_{22} - 2 K_{12}

$\eta = K_{11}+K_{22}-2K_{12}$

最后将 $\alpha_2$ 的值进行约束：

α_{2}^{n e w} = {\begin{cases} H, & α_{2}^{*} > H \\ α_{2}^{*}, & L \leq α_{2}^{*} \leq H \\ L, & α_{2}^{*} < L \end{cases}

$\alpha_2^{new} = \begin{cases} H, & \alpha_2^*>H \\[2ex] \alpha_2^*, & L\leq\alpha_2^*\leq H \\[2ex] L, & \alpha_2^*<L \\[2ex] \end{cases}$
得到

α_{2}

$\alpha_2$ 之后就可以由约束条件

α_{1} y_{1} + α_{2} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} = k

$\alpha_1y_1+\alpha_2y_2 = \alpha_1^{new}y_1+\alpha_2^{new} = k$ 得到

α_{1}

$\alpha_1$ ：

α_{1}^{n e w} = α_{1} + y_{1} y_{2} (α_{2} - α_{2}^{n e w})

$\alpha_1^{new} = \alpha_1+y_1y_2(\alpha_2-\alpha_2^{new})$
大部分情况下， $\eta>0$ ，但是当 $\eta\leq0$ 的时候就比较麻烦了，需要更为复杂的求解手段。详情可以见我后面附上的参考博客。在现实中，这种情况不常发生，因此忽略也无伤大雅，在程序中遇到了一般的处理是跳过此次循环。

4、求解w与b

w的求解可以通过： $w^* = \sum\limits_{i = 1}^m {\alpha _i^*{y_i}{x_i}} \\$ 求得。

b可以通过kkt条件求出：

这是原优化问题的KKT条件：

当 $α_i=0$ 时，分类是正确的；
当 $0≤α_i≤C$ 时，这时的样本点是支持向量，处在边界上；
当 $α_i=C$ 时，位于边界之间。

参考上面的KKT条件进行分类讨论：

如果 $0<α_1<C$ ，则(x1,y1)为支持向量，满足 $y_i(∑_{i=1}^mα_iy_iK_{i1}+b_1)=1$ ：

$α_{1}^{*} y_{1} K_{11} + α_{2}^{*} y_{2} K_{21} + \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} + b_{1}^{*} = y_{1}$ $\alpha_1^*y_1K_{11}+\alpha_2^*y_2K_{21}+\sum_{i=3}^{m}\alpha_iy_iK_{i1}+b_1^*=y_1$

$b_{1}^{*} = y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} - α_{1}^{*} y_{1} K_{11} - α_{2}^{*} y_{2} K_{21} = y_{1} - v_{1} - α_{1}^{*} y_{1} K_{11} - α_{2}^{*} y_{2} K_{21} = y_{1} - [f (x_{1}) - α_{1} y_{1} K_{11} - α_{2} y_{2} K_{12} - b] - α_{1}^{*} y_{1} K_{11} - α_{2}^{*} y_{2} K_{21} = b_{1} - E_{1} - y_{1} K_{11} (α_{1}^{*} - α_{1}) - y_{2} K_{21} (α_{2}^{*} - α_{2})$ $b_1^* = y_1-\sum_{i=3}^{m}\alpha_iy_iK_{i1}-\alpha_1^*y_1K_{11}-\alpha_2^*y_2K_{21}\\ = y_1-v_1-\alpha_1^*y_1K_{11}-\alpha_2^*y_2K_{21}\\ = y_1- [f(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}-b]-\alpha_1^*y_1K_{11}-\alpha_2^*y_2K_{21}\\ =b_1-E_1-y_1K_{11}(\alpha_1^*-\alpha_1)-y_2K_{21}(\alpha_2^*-\alpha_2)$

2.如果 $0<α_2<C$ ，则(x2,y2)为支持向量,那么可以得到 $b_2$ :

b_{2}^{*} = b_{2} - E_{2} - y_{1} K_{12} (α_{1}^{*} - α_{1}) - y_{2} K_{22} (α_{2}^{*} - α_{2})

$b_2^* =b_2-E_2-y_1K_{12}(\alpha_1^*-\alpha_1)-y_2K_{22}(\alpha_2^*-\alpha_2)$
3.如果同时有

0 < α_{1} < C ， 0 < α_{2} < C

$0<α_1<C，0<α_2<C$ ,那么有

b_{1}^{*} = b_{2}^{*}

$b_1^*=b_2^*$ 。

4.如果均不满足 $0≤α_i≤C$ 就取两者中点： $b^*=\frac{b_1^*+b_2^*}{2}$

在周志华老师的《机器学习》中，还给出了一个更为鲁棒的求法：使用所有支持向量求解的平均值：

b = \frac{1}{| S |} \sum_{s \in S} (\frac{1}{y_{s}} - \sum_{i \in S} α_{i} y_{i} x_{i}^{T} x_{s})

$b = \frac{1}{|S|}\sum_{s \in S}(\frac{1}{y_s}-\sum_{i \in S}\alpha_iy_ix_i^Tx_s)$
其中S是所有支持向量的下标集合。

5.总结

SMO的公式推导还是比较复杂的，但是越推就越觉得Platt这些人确实厉害，能推导出如此美丽的公式。钦佩之余，自己又在机器学习的道路上前进了许多，也愈发的觉得自己懂的还是太少，即便是全部推完了这些公式，不会应用的惶恐之心又涌上心头。但是，学无止境，只要一直在路上就一定会到达目的地！

下一篇博客中，我会去研究SMO中启发式的变量选择，看这种方式是如何提高算法的效率的！

参考资料：

周志华《机器学习》-支持向量机

机器学习入门笔记：（4.3）SMO算法

支持向量机（五）SMO算法