支持向量机—SMO论文详解（序列最小最优化算法）

SVM的学习算法可以归结为凸二次规划问题。这样的凸二次规划问题具有全局最优解，并且许多最优化算法可以用来求解，但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。论文《Sequential Minimal Optimization：A Fast Algorithm for Training Support Vector Machines》提出的SMO是针对SVM问题的Lagrange对偶问题开发的高效算法。论文对很多计算细节予以忽略，而网上很多文章的解读要么不详细，要么使用了另外一套符号体系，不方便理解。本文将使用原论文的符号体系进行详细解读。

1. 问题概述

这里写图片描述
支持向量机（SVM）的一大特点是最大化间距（max margin）。对于如上图的二分类问题，虽然有很多线可以将左右两部分分开，但是只有中间的红线效果是最好的，因为它的可活动范围是最大的，从直观上来说，很好理解。
对于线性二分类问题，假设分类面为

u = w ⃗ \cdot x ⃗ + b (1)

$u=\vec{w }\cdot \vec{x} + b \tag{1}$
则margin为

m = 1 ∥ w ∥ 2 (2)

$m=\frac{1}{\left \| w \right \|}_2 \tag{2}$
根据max margin规则和约束条件，得到如下优化问题，我们要求的就是参数

w⃗ $\vec{w}$ 和

b $b$ :

min w ⃗, b 1 2 ∥ ∥ w ⃗ ∥ ∥ 2 s u b j e c t t o y i (w ⃗ \cdot x ⃗ i - b) \geq 1, \forall i, (3)

$\min \limits_{\vec{w},b}\frac{1}{2} \left \| \vec{w} \right \|^{2} subject \, to \, y_i( \vec{w}\cdot \vec{x}_i-b)\geq 1,\forall i,\tag{3}$
对于正样本，类标号

yi $y_i$ 为+1，反之则为-1。根据拉格朗日对偶，公式（3）可以转换为如下的二次规划（QP）问题，其中

αi $\alpha_i$ 为拉格朗日乘子。

min α ⃗ Ψ (α ⃗) = min α ⃗ 1 2 \sum i = 1 N \sum j = 1 N y i y j (x i \to, x j \to) α i α j - \sum i = 1 N α i (4)

$\min \limits_{\vec{\alpha}} \Psi (\vec{\alpha}) = \min \limits_{\vec{\alpha}}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}y_i y_j (\vec{x_i},\vec{x_j})\alpha_i \alpha_j - \sum_{i=1}^{N}\alpha_i \tag{4}$
其中

N $N$ 为训练样本的数量，上式需要满足不等式约束：

α i ⩾ 0, \forall i (5)

$\alpha_i\geqslant 0,\forall_i \tag{5}$
还需要满足等式约束：

\sum i = 1 N y i α i = 0 (6)

$\sum_{i=1}^{N}y_i \alpha_i = 0 \tag{6}$
一旦求解出所有的拉格朗日乘子，则我们可以通过如下的公式得到分类面参数

w⃗ $\vec{w}$ 和

b $b$ 。

w ⃗ = \sum i = 1 N y i α i x ⃗ i, b = w ⃗ \cdot x ⃗ k - y k f o r s o m e α k > 0. (7)

$\vec{w} = \sum_{i=1}^{N}y_i\alpha_i\vec{x}_i, b = \vec{w}\cdot \vec{x}_k-y_k \, for\, some \, \alpha_k > 0.\tag{7}$
当然并不是所有的数据都可以完美的线性可分，可能有少量数据就是混在对方阵营，这时可以通过引入松弛变量

ξi $\xi_i$ 得到软间隔形式的SVM：

min w ⃗, b, ξ ⃗ 1 2 ∥ ∥ w ⃗ ∥ ∥ 2 + C \sum i = 1 N ξ i s u b j e c t t o y i (w ⃗ \cdot x ⃗ i - b) \geq 1 - ξ i, \forall i, (8)

$\min \limits_{\vec{w},b, \vec{\xi}}\frac{1}{2} \left \| \vec{w} \right \|^{2}+C\sum_{i=1}^{N}\xi_i\, subject \, to \, y_i( \vec{w}\cdot \vec{x}_i-b)\geq 1-\xi_i,\forall i,\tag{8}$
其中的

ξi $\xi_i$ 为松弛变量，能假装把错的样本分对，

C $C$ 对max margin和max failures的trade off。对于这个新的优化问题，约束变成了一个box constraint：

0 \leq α i \leq C, \forall i (9)

$0\leq \alpha_i\leq C,\forall i\tag{9}$
而松弛变量

ξi $\xi_i$ 不再出现在对偶公式中了。
对于线性不可分的数据，可以用和函数

K $K$ 将其投影到高维空间，这样就可分了，由此得到一般的分类面公式：

u = \sum j = 1 N y j α j K (x j \to, x ⃗) - b (10)

$u=\sum_{j=1}^{N}y_j \alpha_j K(\vec{x_j},\vec{x}) -b \tag{10}$
则最终需要求解的问题如下：

min α ⃗ Ψ (α ⃗) = min α ⃗ 1 2 \sum i = 1 N \sum j = 1 N y i y j K (x i \to, x j \to) α i α j - \sum i = 1 N α i

$\min \limits_{\vec{\alpha}} \Psi (\vec{\alpha}) = \min \limits_{\vec{\alpha}}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}y_i y_j K(\vec{x_i},\vec{x_j})\alpha_i \alpha_j - \sum_{i=1}^{N}\alpha_i$

0 \leq α i \leq C, \forall i (11)

$0\leq \alpha_i \leq C, \forall_i \tag{11}$

\sum i = 1 N y i α i = 0

$\sum_{i=1}^{N}y_i \alpha_i = 0$
在这个问题中，变量是拉格朗日乘子，一个变量

αi $\alpha_i$ 对应一个样本点

(xi,yi) $(x_i,y_i)$ ，变量的总数等于样本容量

N $N$ 。
KKT条件（Karush-Kuhn-Tucker）是正定二次规划问题有最优解的充分必要条件，其表述如下：

α i = 0 \Leftrightarrow y i u i ⩾ 1,

$\alpha_i = 0\Leftrightarrow y_iu_i\geqslant 1,$

0 < α i < C \Leftrightarrow y i u i = 1, (12.1)

$0< \alpha_i < C \Leftrightarrow y_iu_i= 1, \tag{12.1}$

α i = C \Leftrightarrow y i u i \leq 1.

$\alpha_i = C \Leftrightarrow y_iu_i \leq1.$
这里记：输入为训练样本

x⃗ i $\vec{x}_i$ 时，SVM的输出为

ui $u_i$ ，即：

u i = \sum j = 1 N y j α j K (x j \to, x i \to) - b (12.2)

$u_i=\sum_{j=1}^{N}y_j \alpha_j K(\vec{x_j},\vec{x_i}) -b \tag{12.2}$

2. SMO算法概述

SMO算法是一种启发式算法，其基本思路是：
如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了（因为KKT条件是该最优化问题的充分必要条件）。否则选择两个变量，固定其他的变量，针对这两个问题构建一个二次规划问题。这个二次规划问题的解应该更接近二次规划问题的解（因为这会使得原始二次规划问题的目标函数值更小）。而且，这时子问题可以通过解析方法求解，这样就大大提高了整个算法的计算速度。
每一次，子问题都有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而得到原问题的最终解。
注意，每个子问题有两个变量，而不能是1个变量，因为当选择一个变量时，由于约束条件，其他变量的值就固定了该变量的值也就固定了。所以子问题中同时更新两个变量。
SMO算法包括两个部分：
（1）求解两个变量二次规划问题的解析方法
（2）选择变量的启发式方法

3 两个变量二次规划问题的求解方法

不失一般性，假设选择的两个变量是 $\alpha_1$ ， $\alpha_2$ ，其他 $\alpha_i$ 固定。为了描述方便定义如下符号：

K i j = K j i = K (x i \to, x j \to)

$K_{ij}=K_{ji}=K(\vec{x_i},\vec{x_j})$

u i = \sum j = 1 N y j α j o l d K j i - b o l d （ 公 式 12.2 ）

$u_i=\sum_{j=1}^{N}y_j {\alpha_j}^{old} K_{ji} -b^{old} （公式12.2）$

v i = \sum j = 3 N y j α j o l d K i j = u i + b o l d - y 1 α 1 o l d K 1 i - y 2 α 2 o l d K 2 i

$v_i=\sum_{j=3}^{N}y_j {\alpha_j}^{old} K_{ij}=u_i+b^{old}-y_1{\alpha_1}^{old}K_{1i}-y_2{\alpha_2}^{old}K_{2i}$
那么SMO的最优化问题的子问题可以写成：
这里写图片描述

满足约束条件：

α 1 y 1 + α 2 y 2 = - \sum i = 3 N α i y i = k

$\alpha_1 y_1 + \alpha_2 y_2 = - \sum_{i=3}^{N}\alpha_i y_i=k$

0 \leq α i \leq C i = 1, 2

$0\leq \alpha_i\leq C\, \,\,\,\,\,\, i=1,2$

3.1 约束条件

首先，我们分析下约束条件，然后求此约束条件下的极小。
约束条件使得目标函数在一条平行长度为C的正方形的对角线的线段上的最优值。这使得两个变量的最优化问题实质上是单变量的最优化问题，不妨考虑 $\alpha_2$ 的最优化问题。
假设初始可行解为 ${\alpha_1}^{old}$ 和 ${\alpha_2}^{old}$ ，最优解为 ${\alpha_1}^{new}$ 和 ${\alpha_2}^{new}$ ，并假设在沿着约束方向未经编辑时的 $\alpha_2$ 的最优解为 ${\alpha_2}^{new,unc}$ 。由于 ${\alpha_2}^{new}$ 需要满足不等式约束，所以最优值 ${\alpha_2}^{new}$ 的取值范围必须满足条件：

L \leq α 2 n e w \leq H

$L \leq {\alpha_2}^{new} \leq H$
当

y1≠y2 $y_1\neq y_2$ 时，它们可以表示为

α 2 = α 1 + k = {k = α 2 o l d - α 1 o l d C + k = C + α 2 o l d - α 1 o l d if α 1 = 0 min value if α 1 = C max value

$\alpha_2=\alpha_1+k=\begin{cases} k={\alpha_2}^{old}-{\alpha_1}^{old}& \text{ if } \alpha_1= 0 \text{ min value } \\ C+k= C+{\alpha_2}^{old}-{\alpha_1}^{old}& \text{ if } \alpha_1= C \text{ max value } \end{cases}$
此时，

L = m a x (0, α 2 o l d - α 1 o l d), H = m i n (C, C + α 2 o l d - α 1 o l d) (13)

$L=max(0,{\alpha_2}^{old}-{\alpha_1}^{old}), H=min(C,C+{\alpha_2}^{old}-{\alpha_1}^{old})\tag{13}$
当

y1=y2 $y_1=y_2$ 时，它们可以表示为

α 2 = k - α 1 = {k = α 2 o l d + α 1 o l d k - C = α 2 o l d + α 1 o l d - C if α 1 = 0 max value if α 1 = C min value

$\alpha_2=k-\alpha_1=\begin{cases} k={\alpha_2}^{old}+{\alpha_1}^{old}& \text{ if } \alpha_1= 0 \text{ max value } \\ k-C= {\alpha_2}^{old}+{\alpha_1}^{old}-C& \text{ if } \alpha_1= C \text{ min value } \end{cases}$
此时，

L = m a x (0, α 2 o l d + α 1 o l d - C), H = m i n (C, α 2 o l d + α 1 o l d) (14)

$L=max(0,{\alpha_2}^{old}+{\alpha_1}^{old}-C), H=min(C,{\alpha_2}^{old}+{\alpha_1}^{old})\tag{14}$

3.2 初步求解 $\alpha_2$

在下面的公式两侧同时乘以 $y_1$

α 1 y 1 + α 2 y 2 = k

$\alpha_1 y_1 + \alpha_2 y_2 =k$
可得

α 1 + s α 2 = γ \Rightarrow α 1 = γ - s α 2

$\alpha_1 + s\alpha_2 =\gamma\Rightarrow \alpha_1=\gamma-s\alpha_2$
这里

s=y1y2 $s=y_1y_2$ ，

γ=ky1 $\gamma=ky_1$ 为一常数。将上式代入目标函数，可得

Ψ (α 2) = 1 2 K 11 (γ - s α 2) 2 + 1 2 K 22 α 2 2 + s K 12 (γ - s α 2) α 2 + y 1 (γ - s α 2) v 1 - γ + s α 2 + y 2 α 2 v 2 - α 2 + Ψ c o n s t a n t

$\Psi(\alpha_2)=\frac{1}{2}K_{11}(\gamma-s\alpha_2)^2+\frac{1}{2}K_{22}{\alpha_2}^2+sK_{12}(\gamma-s\alpha_2)\alpha_2+y_1(\gamma-s\alpha_2)v_1-\gamma+s\alpha_2+y_2\alpha_2v_2-\alpha_2+\Psi_{constant}$
对目标函数求导，可得：

d Ψ d α 2 = - s K 11 (γ - s α 2) + K 22 α 2 - K 12 α 2 + s K 12 (γ - s α 2) - y 2 v 1 + s + y 2 v 2 - 1 = 0

$\frac{d\Psi}{d\alpha_2}=-sK_{11}(\gamma-s\alpha_2)+K_{22}\alpha_2-K_{12}\alpha_2+sK_{12}(\gamma-s\alpha_2)-y_2v_1+s+y_2v_2-1=0$
一般情况下，二次导数为正，这时上式所得

α2 $\alpha_2$ 即为所求。
此时，

α 2 (K 11 + K 22 - 2 K 12) = s (K 11 - K 12) γ + y 2 (v 1 - v 2) + 1 - s

$\alpha_2(K_{11}+K_{22}-2K_{12})=s(K_{11}-K_{12})\gamma+y_2(v_1-v_2)+1-s$
将

γ=α1+sα2 $\gamma=\alpha_1 + s\alpha_2$ 和

vi $v_i$ 代入上式，即可得：

α 2 (K 11 + K 22 - 2 K 12) = α 2 o l d (K 11 + K 22 - 2 K 12) + y 2 (u 1 - u 2 + y 2 - y 1)

$\alpha_2(K_{11}+K_{22}-2K_{12})={\alpha_2}^{old}(K_{11}+K_{22}-2K_{12})+y_2(u_1-u_2+y_2-y_1)$
令：

Ei=ui−yi $E_i=u_i-y_i$ 表示误差项（可以想象，即使分类正确，

ui $u_i$ 的值也可能很大），

η=K11+K22−2K12=∥∥Φ(xi)−Φ(xj)∥∥ $\eta=K_{11} +K_{22}-2K_{12}=\left \| \Phi(x_i)- \Phi(x_j) \right \|$ ，其中

Φ $\Phi$ 是原始空间向特征空间的映射，这里

η $\eta$ 可以看成是一个度量两个样本相似性的距离，换句话说，一旦选择核函数则意味着你已经定义了输入空间中元素的相似性。最后得到迭代式：

α 2 n e w = α 2 o l d + y 2 ( E 1 - E 2 ) η

${\alpha_2}^{new}={\alpha_2}^{old}+\frac{y_2(E_1-E_2)}{\eta}$

3.3 限定 $\alpha_2$ ，并求解 $\alpha_1$

考虑不等式约束条件 $L \leq {\alpha_2}^{new} \leq H$ ，整理得下式：

α 2 n e w, c l i p p e d = ⎧ ⎩ ⎨ L α 2 n e w H if α 2 n e w ⩽ L if L < α 2 n e w < H if α 2 n e w > H

${\alpha_2}^{new,clipped}=\begin{cases} L & \text{ if } {\alpha_2}^{new}\leqslant L \\ {\alpha_2}^{new} & \text{ if } L< {\alpha_2}^{new}< H \\ H& \text{ if } {\alpha_2}^{new}> H \end{cases}$
又因为

α1old+sα2old=α1new+sα2new,clipped=γ ${\alpha_1}^{old} + s{\alpha_2}^{old} ={\alpha_1}^{new} + s{\alpha_2}^{new,clipped}=\gamma$ ，则有

α 1 n e w = α 1 o l d + s (α 2 o l d - α 2 n e w, c l i p p e d)

${\alpha_1}^{new}={\alpha_1}^{old} + s({\alpha_2}^{old} - {\alpha_2}^{new,clipped})$ 。

3.4 更新阈值b

为了使新得到的 $\alpha_1$ 和 $\alpha_2$ 乘子满足KKT条件，则需要 $\alpha_1$ 或 $\alpha_2$ 在界内，并满足条件 $y_iu_i=1$ 。
假设 ${\alpha_1}^{new}$ 在界内，则：

y 1 u n e w 1 = 1 \Rightarrow y 1 (α n e w 1 y 1 K 11 + α n e w, c l i p p e d 2 y 2 K 21 + \sum j = 3 N (α j y j K j 1) - b n e w) = 1

$y_1u_1^{new}=1\Rightarrow y_1(\alpha_1^{new}y_1K_{11}+\alpha_2^{new,clipped}y_2K_{21}+\sum_{j=3}^{N}(\alpha_jy_jK_{j1})-b^{new})=1$
又因为：

E 1 = u 1 - y 1 = α o l d 1 y 1 K 11 + α o l d 2 y 2 K 21 + \sum j = 3 N (α j y j K j 1) - b o l d - y 1

$E_1=u_1-y_1= \alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{21}+\sum_{j=3}^{N}(\alpha_jy_jK_{j1})-b^{old}-y_1$
所以

\sum j = 3 N (α j y j K j 1) = E 1 - α o l d 1 y 1 K 11 - α o l d 2 y 2 K 21 + b o l d + y 1

$\sum_{j=3}^{N}(\alpha_jy_jK_{j1})=E_1- \alpha_1^{old}y_1K_{11}-\alpha_2^{old}y_2K_{21}+b^{old}+y_1$
将其代入上式，可得

y 1 (α n e w 1 y 1 K 11 + α n e w, c l i p p e d 2 y 2 K 21 + E 1 - α o l d 1 y 1 K 11 - α o l d 2 y 2 K 21 + b o l d + y 1 - b n e w) = 1

$y_1(\alpha_1^{new}y_1K_{11}+\alpha_2^{new,clipped}y_2K_{21}+E_1- \alpha_1^{old}y_1K_{11}-\alpha_2^{old}y_2K_{21}+b^{old}+y_1-b^{new})=1$
等式两侧同时乘以

y1 $y_1$ ，可得

b n e w 1 = E 1 + y 1 (α n e w 1 - α o l d 1) K 11 + y 2 (α n e w, c l i p p e d 2 - α o l d 2) K 12 + b o l d

$b_1^{new}=E_1+y_1(\alpha_1^{new}-\alpha_1^{old})K_{11}+y_2(\alpha_2^{new,clipped}-\alpha_2^{old})K_{12}+b^{old}$
同理，假设

α2new,clipped ${\alpha_2}^{new,clipped}$ 在界内，则：

b n e w 2 = E 2 + y 1 (α n e w 1 - α o l d 1) K 12 + y 2 (α n e w, c l i p p e d 2 - α o l d 2) K 22 + b o l d

$b_2^{new}=E_2+y_1(\alpha_1^{new}-\alpha_1^{old})K_{12}+y_2(\alpha_2^{new,clipped}-\alpha_2^{old})K_{22}+b^{old}$