C_SVC推导

1. 模型假设

假设现在有训练数据 $X$ ，是 $m*n$ 的矩阵， $m$ 是样本数量， $n$ 是样本向量的维数，记样本中第 $i$ 个样本为 $x^{(i)}$ ,标签为 $y^{(i)}$ , $y\in\{+1,-1\}$
现在考虑二分类问题，样本的标签为 $\vec{y}$ ，是 $m*1$ 的向量。
目的，找到一个最优的相关面，以方程 $\vec{w}*\vec{x}+b=0$ 表示，其中 $\vec{w}$ 是一个 $n*1$ 维向量，按照线性代数的记号，记为：
$w^Tx+b=0$
$|w^Tx^{(i)}+b|$ 为第 $i$ 个点到分离面的距离， $\hat{\gamma}^{(i)}= y^{(i)}(w^Tx^{(i)}+b)$ ,为函数间隔，对于所有的样本 $\hat{\gamma}^{(i)}>=0$ ，因为 $y^{(i)}$ 和 $w^Tx^{(i)}+b$ 符号相同，找到这样一个分离面，使得所有样本到分离面的距离最大，即是任务所在。
为了归一化表示，因为 $w$ 和 $b$ 的成比例变化，并不影响分离面的位置，因此要归一化。 $\gamma^{(i)}= y^{(i)}(\frac{w^T}{||w||}x^{(i)}+\frac{b}{||w||})$ 记为几何间隔。
几何间隔的最小值为
$\gamma=min_w\gamma^{(i)}$

2. 优化问题

任务为，找到最优的 $w$ 使得最下的几何间隔最大:
$\begin{matrix} & max_w & \gamma \ &s.t. & y^{(i)}(w^Tx^{(i)}+b)&>=\gamma \end{matrix}$
等价于
$\begin{matrix} & max_w & \dfrac{\hat{\gamma}}{||w||} \ &s.t. & y^{(i)}(\frac{w^T}{||w||}x^{(i)}+\frac{b}{||w||})&>=\frac{\gamma}{||w||} \end{matrix}$
即

m a x w s . t . γ ^ | | w | | y (i) (w T x (i) + b) > = γ^

$\begin{matrix} & max_w & \dfrac{\hat{\gamma}}{||w||} \\ &s.t. & y^{(i)}(w^Tx^{(i)}+b)&>=\hat{\gamma} \end{matrix}$
令

γ^=1 $\hat{\gamma}=1$ 且最大化

1||w|| $\dfrac{1}{||w||}$ 等价于最小化

12||w||2 $\frac{1}{2}{||w||}^2$
最终，优化问题化为：

$\begin{matrix} & min_w & \frac{1}{2}{||w||}^2 \ & s.t. & y^{(i)}(w^Tx^{(i)}+b)&>=1 \end{matrix}$

3. 软间隔

样本有可能不会完全能硬性区分，存在噪点，在正负样本之间相互渗透，要允许软性区分。利用正则化，放松一个点到分离面的距离的约束，即函数间隔 $\hat{\gamma}=y^{(i)}(w^Tx^{(i)}+b)>=1-\xi^{(i)}$ ,但是每放松一个 $\xi^{(i)}$ 就要支付一个代价 $C\xi^{(i)}$ ,则优化函数变成
$\begin{matrix} & min_w & \frac{1}{2}{||w||}^2+C\sum_{i=1}^{m}\xi^{(i)} \ & s.t. & y^{(i)}(w^Tx^{(i)}+b)>=1-\xi^{(i)}\ &&\xi^{(i)}>=0 \end{matrix}$

4. 拉格朗日对偶和KKT条件

4.1 导出对偶形式

假设有如下问题
$\begin{matrix} & min_w & f(w) \ & s.t. & g_i(w)<=0\ & &h_i(w)=0 \end{matrix}$
有一组 $\alpha>=0,\beta>=0$ ，组成拉格朗日函数形式
$L(w,\alpha,\beta)=f(w)+\sum_{i=1}^{m}\alpha_ig_i(w)+\sum_{i=1}^{m}\beta_ih_i(w)$
在满足原问题的约束条件下，有
$f(w)=max_{\alpha,\beta}L(w,\alpha,\beta)$
原问题化为
$min_w max_{\alpha,\beta}L(w,\alpha,\beta)$
注意 $w$ 和 $\alpha,\beta$ 的位置和顺序

考虑对偶问题 $min_w L(w,\alpha,\beta)<=L(w,\alpha,\beta)$
而原等价问题中 $max_{\alpha,\beta}L(w,\alpha,\beta)>=L(w,\alpha,\beta)$
得
$d^*=max_{\alpha,\beta}min_w L(w,\alpha,\beta)<=min_w max_{\alpha,\beta}L(w,\alpha,\beta)=p^*$
即对偶问题恒小于等于原问题
可以看出，在某些条件下是可以取等号的

4.2 kkt的必要性证明

假设现在有最优解使得 $d^*=p^*,(w=w^*,\alpha=\alpha^*,\beta=\beta^*)$ ,拉格朗日函数恒为凸函数，即最优解定在原空间导数为零的位置取得。
有：

f (w *) = m i n w L (w, α *, β *) = < = < = m i n w f (w) + \sum i = 1 m α * i g i (w) + \sum i = 1 m β * i h i (w) f (w *) + \sum i = 1 m α * i g i (w *) + \sum i = 1 m β * i h i (w *) f (w *)

$\begin{matrix} f(w^*)=min_w L(w,\alpha^*,\beta^*) &=&min_w f(w)+\sum_{i=1}^{m}\alpha^*_ig_i(w)+\sum_{i=1}^{m}\beta^*_ih_i(w)\\ &<=&f(w^*)+\sum_{i=1}^{m}\alpha^*_ig_i(w^*)+\sum_{i=1}^{m}\beta^*_ih_i(w^*)\\ &<=&f(w^*) \end{matrix}$
则不等式取等号，由倒数第二行有：

\nabla w f (w *) = 0 α * i g i (w *) = 0 g i (w *) < = 0 α i > = 0 (稳 定 性 条 件 ， s t a t i o n a r i t y) (对 偶 互 补 条 件 ， c o m p l e m e n t a r y s l a c k n e s s) (原 问 题 约 束 ， p r i m a l f e a s i b i l i t y) (对 偶 问 题 约 束 ， d u a l f e a s i b i l i t y)

$\begin{matrix} \nabla_w f(w^*)=0 &(稳定性条件，stationarity)\\ \alpha^*_ig_i(w^*)=0 &(对偶互补条件，complementary slackness)\\ g_i(w*)<=0 &(原问题约束，primal feasibility)\\ \alpha_i>=0 &(对偶问题约束，dual feasibility)\end{matrix}$
对偶互补条件是由于

gi(w∗)<=0 $g_i(w*)<=0$ 且

αi>=0 $\alpha_i>=0$ 且

∑α∗igi(w∗)=0 $\sum\alpha^*_ig_i(w^*)=0$ ,由于每一项都小于等于0，要取得和等于零，只能是每一项都等于0.

4.3 kkt的充分性证明

假设现在有 $(w=w^*,\alpha=\alpha^*,\beta=\beta^*)$ 满足kkt条件：
有:

f (w *) = = f (w *) + \sum i = 1 m α * i g i (w *) + \sum i = 1 m β * i h i (w *) m i n w L (w *, α *, β *)

$\begin{matrix} &f(w^*)&=&f(w^*)+\sum_{i=1}^{m}\alpha^*_ig_i(w^*)+\sum_{i=1}^{m}\beta^*_ih_i(w^*)\\ &&=&min_wL(w^*,\alpha^*,\beta^*) \end{matrix}$
那么，

d∗=maxα,βminwL(w,α,β)=maxα,βf(w∗)=minwf(w)=p∗ $d^*=max_{\alpha,\beta}min_w L(w,\alpha,\beta)=max_{\alpha,\beta}f(w^*)=min_w f(w)=p^*$

5.软间隔的对偶表达

含有软间隔的问题为：
$\begin{matrix} & min_w & \frac{1}{2}{||w||}^2+C\sum_{i=1}^{m}\xi^{(i)} \ & s.t. & y^{(i)}(w^Tx^{(i)}+b)>=1-\xi^{(i)}\ &&\xi^{(i)}>=0 \end{matrix}$
拉个朗日函数:

L (w, ξ, α, β) = 1 2 | | w | | 2 + C \sum i = 1 m ξ (i) + \sum i = 1 m α (i) - \sum i = 1 m α (i) ξ (i) - \sum i = 1 m α (i) y (i) (w T x (i) + b) - μ (i) ξ (i)

$\begin{matrix} &L(w,\xi,\alpha,\beta)&\\ &=&\frac{1}{2}{||w||}^2+C\sum_{i=1}^{m}\xi^{(i)}+\sum_{i=1}^{m}\alpha^{(i)}\\ &&-\sum_{i=1}^{m}\alpha^{(i)}\xi^{(i)}-\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}(w^Tx^{(i)}+b)-\mu^{(i)}\xi^{(i)} \end{matrix}$
求kkt条件：

∇wL(w,ξ,α,β)=w−∑mi=1α(i)y(i)x(i)=0 $\nabla_wL(w,\xi,\alpha,\beta)=w-\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}x^{(i)}=0$

∇bL(w,ξ,α,β)=−∑mi=1α(i)y(i)=0 $\nabla_bL(w,\xi,\alpha,\beta)=-\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}=0$

∇ξL(w,ξ(i),α,β)=C−α(i)−μ(i)=0 $\nabla_{\xi}L(w,\xi^{(i)},\alpha,\beta)=C-\alpha^{(i)}-\mu^{(i)}=0$

α(i)(1−ξ(i)−y(i)(wTx(i)+b))=0 $\alpha^{(i)}(1-\xi^{(i)}-y^{(i)}(w^Tx^{(i)}+b))=0$

μ(i)>=0 $\mu^{(i)}>=0$

α(i)>=0 $\alpha^{(i)}>=0$
以上的拉个朗日均不显示的写出

b $b$ ,带入拉格朗日函数得：

L(w,ξ,α,β)=−12∑mi=0∑mj=0α(i)α(j)y(i)y(j)x(i)Tx(j)+∑mi=1α(i) $L(w,\xi,\alpha,\beta)=-\frac{1}{2}\sum_{i=0}^{m}\sum_{j=0}^{m}\alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}x^{(i)T}x^{(j)}+\sum_{i=1}^{m}\alpha^{(i)}$
优化问题就变成了：

minα12∑mi=0∑mj=0α(i)α(j)y(i)y(j)x(i)Tx(j)−∑mi=1α(i) s.t.0<=α(i)<=C ∑mi=1α(i)y(i)=0 $\begin{matrix} min_{\alpha}& \frac{1}{2}\sum_{i=0}^{m}\sum_{j=0}^{m}\alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}x^{(i)T}x^{(j)}-\sum_{i=1}^{m}\alpha^{(i)}\ s.t. &0<=\alpha^{(i)}<=C\ &\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}=0 \end{matrix}$

上面的kkt条件中， $g(w)=1-\xi^{(i)}-y^{(i)}(w^Tx^{(i)}+b)$ ,表示点到分离面的最大函数间隔
由对偶互补条件 $\alpha^{(i)}g^{(i)}(w)=0$ ，如果 $\alpha^{(i)}>0$ 则 $g^{(i)}(w)=0$ ,那么 $\alpha^{(i)}$ 对应的点是支撑向量，应当保留下来。当 $\alpha=0$ 时，则是否为支撑向量均已无意义，在求和中不影响，所以不必记录。

6. 核函数

核函数即选择函数 $K(x,y)=\phi(x)^T\phi(y)$ ,其中 $\phi(x)$ 为从 $n$ 维空间到另一个空间的映射，核函数表示映射后的点积。核函数的引入是为了解决非线性分割的问题，径向基核如高斯核用泰勒展开理论上可以映射到无限维上去。
将核函数带入上面的待优化方程中，写为：
$\begin{matrix} min_{\alpha}& \frac{1}{2}\sum_{i=0}^{m}\sum_{j=0}^{m}\alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}K(x^{(i)},x^{(j)})-\sum_{i=1}^{m}\alpha^{(i)}\ s.t. &0<=\alpha^{(i)}<=C\ &\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}=0 \end{matrix}$

7 经典SMO算法

将待优化的函数视为一个二元函数，假设现在要优化 $\alpha^{(1)}$ 和 $\alpha^{(2)}$ ，为了方便 $\alpha$ 均用下标，可以写为：

m i n α 1 α 2 s . t . ψ (α 1, α 2) = 1 2 α 21 K 11 + 1 2 α 22 K 22 + α 1 α 2 y 1 y 2 K 12 - (α 1 + α 2) + α 1 y 1 v 1 + α 2 y 2 v 2 + c o n s t a n t 0 < = α 1 < = C, 0 < = α 2 < = C v 1 = \sum i = 3 m α i y i K 1 i, v 2 = \sum i = 3 m α i y i K 2 i α 1 y 1 + α 2 y 2 = ζ = - \sum i = 3 m α i y i

$\begin{matrix} min_{\alpha_1\alpha_2}& \psi(\alpha_1,\alpha_2)=\frac{1}{2}\alpha_1^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+\alpha_1\alpha_2y_1y_2K_{12}\\&-(\alpha_1+\alpha_2)+\alpha_1y_1v_1+\alpha_2y_2v_2+constant\\ s.t. &0<=\alpha_1<=C ,0<=\alpha_2<=C\\ &v_1=\sum_{i=3}^{m}\alpha_iy_iK_{1i},v_2=\sum_{i=3}^{m}\alpha_iy_iK_{2i}\\ &\alpha_1y_1+\alpha_2y_2=\zeta=-\sum_{i=3}^{m}\alpha_iy_i \end{matrix}$
将

α1=y1(ζ−α2y2) $\alpha_1=y_1(\zeta-\alpha_2y_2)$ 带入，注意

yi∗yi=1 $y_i*y_i=1$
得：

ψ(α2)=12(ζ−y2α2)2K11+12α22K22+(ζ−y2α2)α2y2K12 −(y1ζ−y1y2α2+α2)+(ζ−α2y2)v1+α2y2v2 $\psi(\alpha_2)=\frac{1}{2}(\zeta-y_2\alpha_2)^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+(\zeta-y_2\alpha_2)\alpha_2y_2K_{12}\ -(y_1\zeta-y_1y_2\alpha_2+\alpha_2)+(\zeta-\alpha_2y_2)v_1+\alpha_2y_2v_2$
求导得：

∂ψ∂α2=(K11+K22−2K12)α−ζy2K11+ζy2K12+y1y2−1−y2v1+y2v2=0 $\dfrac{\partial\psi}{\partial\alpha_2}=(K_{11}+K_{22}-2K_{12})\alpha-\\\zeta y_2K_{11}+\zeta y_2K_{12}+y_1y_2-1-y_2v_1+y_2v_2=0$
这里的

α2 $\alpha_2$ 即是优化后的

α2 $\alpha_2$ ,记为

αnew2 $\alpha_2^{new}$
此时依照kkt条件，可以得出决策函数为

f(x)=∑mi=1αiyiK(xi,x)+b $f(x)=\sum_{i=1}^{m}\alpha_iy_iK(x_i,x)+b$
可得：

v1=f(x1)−α1y1K11−α2y2K12−b v2=f(x2)−α1y1K12−α2y2K22−b $v_1=f(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}-b\ v_2=f(x_2)-\alpha_1y_1K_{12}-\alpha_2y_2K_{22}-b$
定义

Ei=f(xi)−yi $E_i=f(x_i)-y_i$ 则

E1=f(x1)−y1 $E_1=f(x_1)-y_1$

E2=f(x2)−y2 $E_2=f(x_2)-y_2$
带入

∂ψ∂α2 $\dfrac{\partial\psi}{\partial\alpha_2}$
最后得：

αnew2=αold2+y2(E1−E2)K11+K22−2K22 $\alpha_2^{new}=\alpha_2^{old}+\dfrac{y_2(E_1-E_2)}{K_{11}+K_{22}-2K_{22}}$
检查约束条件，当

y1=y2, $y_1=y_2,$ 有

α1+α2=k,k=±ζ $\alpha_1+\alpha_2=k,k=\pm\zeta$ ,
令

α1=0 $\alpha_1=0$ 上截距

H=min(C,α1+α2) $H=min(C,\alpha_1+\alpha_2)$
令

α1=C $\alpha_1=C$ 下截距

L=max(0,α1+α2−C) $L=max(0,\alpha_1+\alpha_2-C)$
当

y1≠y2 $y_1\ne y_2$ 有

α1−α2=k,k=±ζ $\alpha_1-\alpha_2=k,k=\pm\zeta$
令

α1=0 $\alpha_1=0$ 上截距

H=min(C,C+α2−α1) $H=min(C,C+\alpha_2-\alpha_1)$
令

α1=C $\alpha_1=C$ 下截距

L=max(0,α2−α1) $L=max(0,\alpha_2-\alpha_1)$
此时对

α2 $\alpha_2$ 进行截取

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ H α n e w 2 L, α n e w 2 > = C, 0 < α n e w 2 < C, α n e w 2 < = 0

$\alpha_2^{new}=\begin{cases} H&,\alpha_2^{new}>=C\\ \alpha_2^{new}&,0<\alpha_2^{new}<C\\ L&,\alpha_2^{new}<=0 \end{cases}$
截取后得
由

y1αnew1+y2αnew2=y1αold1+y2αold2=ζ $y_1\alpha_1^{new}+y_2\alpha_2^{new}=y_1\alpha_1^{old}+y_2\alpha_2^{old}=\zeta$
得

αnew1=αold1+y1y2(αold2−αnew2) $\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$
更新完

α1 $\alpha_1$ 和

α2 $\alpha_2$ 之后，则需要更新

b $b$ ,由于在原问题中，当

0<αi<C $0<\alpha_i<C$ 时，该向量对应着支撑向量，此时不需要放松

ξi=0 $\xi_i=0$
因此有

yi(f(x))=1 $y_i(f(x))=1$ ，即

yj(∑mi=1αiyiK(xi,xj)+b)=1 $y_j(\sum_{i=1}^{m}\alpha_iy_iK(x_i,x_j)+b)=1$
若j=1

b=bnew1=y1−∑mi=3yiαiKi1−α1y1K11−α2y2K12 $b=b_1^{new}=y_1-\sum_{i=3}^{m}y_i\alpha_iK_{i1}-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}$
将

E1=∑mi=3αiyiKi1+αold1y1K11+αold2y2K12+bold−y1 $E_1=\sum_{i=3}^{m}\alpha_iy_iK_{i1}+\alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{12}+b^{old}-y_1$ 带入上式，得

b=bnew1=−E1−y1(αnew1−αold1)K11−y2(αnew2−αold2)K12+bold $b=b_1^{new}=-E_1-y_1(\alpha_1^{new}-\alpha_1^{old})K_{11}-y_2(\alpha_2^{new}-\alpha_2^{old})K_{12}+b^{old}$
若j=2

b=bnew2=y2−∑mi=3αiKi2−α1K12−α2K22 $b=b_2^{new}=y_2-\sum_{i=3}^{m}\alpha_iK_{i2}-\alpha_1K_{12}-\alpha_2K_{22}$ 得

b=bnew2=−E2−y1(αnew1−αold1)K12−y2(αnew2−αold2)K22+bold $b=b_2^{new}=-E_2-y_1(\alpha_1^{new}-\alpha_1^{old})K_{12}-y_2(\alpha_2^{new}-\alpha_2^{old})K_{22}+b^{old}$
若同时满足约束，则上面两式子相等，将

α1 $\alpha_1$ 和

α2 $\alpha_2$ 带入即可得
若都不满足约束，即都在边界上取得，Patt的原文说在

b1 $b_1$ 和

b2 $b_2$ 之间的数都满足kkt条件，故取

bnew1+bnew22 $\dfrac{b_1^{new}+b_2^{new}}{2}$ ，因为当

αi=0 $\alpha_i=0$ 有kkt条件

yj(∑mi=1αiyiK(xi,xj)+b)>=1==>yjEj>=0 $y_j(\sum_{i=1}^{m}\alpha_iy_iK(x_i,x_j)+b)>=1==>y_jE_j>=0$

αi=C $\alpha_i=C$ 有kkt条件

yj(∑mi=1αiyiK(xi,xj)+b)<=1==>yjEj<=0 $y_j(\sum_{i=1}^{m}\alpha_iy_iK(x_i,x_j)+b)<=1==>y_jE_j<=0$ ,也可以用函数间隔来理解，当

αi=0 $\alpha_i=0$ 时远离分离面，函数间隔大于等于1，当等于C的时候超过了分离面，函数间隔必然小于等于1.
证明方法，将

αnew1 $\alpha_1^{new}$ 和

αnew2 $\alpha_2^{new}$ 分别以

αold1−λy1E1−E2η $\alpha_1^{old}-\lambda y_1\dfrac{E_1-E_2}{\eta}$ 和

αold2+λy2E1−E2η $\alpha_2^{old}+\lambda y_2\dfrac{E_1-E_2}{\eta}$ 替代。

λ∈[0,1) $\lambda\in[0,1)$ 表示剪辑后的系数,带入

bnew=tbnew1+(1−t)bnew2 $b^{new}=tb_1^{new}+(1-t)b_2^{new}$ 中，再联立

b1 $b_1$ ,

b2 $b_2$ 的公式和更新

E $E$ 的公式得：

{Enew1=(1−t)(1−λ)(E1−E2) Enew2=−t(1−λ)(E1−E2) $\begin{cases} E_1^{new}=(1-t)(1-\lambda)(E_1-E_2)\ E_2^{new}=-t(1-\lambda)(E_1-E_2) \end{cases}$
然后将

α1 $\alpha_1$ 、

α2 $\alpha_2$ 和

y1 $y_1$ 、

y2 $y_2$ 的各种情况代入讨论，最后都是满足KKT条件的

C_SVC推导(经典的SVM模型)