SVM原理推导(课堂笔记及思路整理)

前言

上数据挖掘课的樊老师讲了三节课，一堆堆的数学符号。这里加以整理，非常感谢樊老师讲的知识。（我不生产知识，我只是知识的搬运工, 开个玩笑嘻嘻）。这里记录一下过程还有我对过程的一些理解。
为避免像上次一样一些网站转载博客而不标注网址，这里我提一下:
本文链接: https://blog.csdn.net/weixin_43850253/article/details/109356427

知识体系

hard margin SVM
soft margin SVM
kernel SVM

其中，线性的有hard margin SVM 和 soft margin SVM, 非线性的有kernel SVM。

hard margin SVM

hard margin SVM要求两个支持向量之间不存在数据点，如果存在的话则要使用soft margin SVM。
这里我们要分割出两个类别，要使得离支持向量最近的点到支持向量的距离最大，这个时候这个线(或平面或者超平面) 的分类效果是最好的。
点到超平面的距离公式如下:
$\frac{|w^Tx_i ~+~ b|}{||w||}$

如何推导的话这里推荐一篇博客: SVM 任意点到超平面的距离公式

然后我们的目标就变为了如下
$max_{w, b} ~ min_{x_i} \frac{|w^Tx_i ~+~ b|}{||w||} \\$
$max_{w, b} \frac{1}{||w||} ~ min_{x_i} |w^Tx_i ~+~ b| \\$
$\left\{ \begin{array}{l} max_{w, b} \frac{1}{||w||} ~ min_{x_i} ~y_i(w^Tx_i ~+~ b) \\ st. ~~~ y_i (w^Tx_i ~+~ b) ~>~ 0 \end{array} \right.$

故 ∃r > 0, st. y_i(w^Tx_i + b) = r
$\left\{ \begin{array}{l} max \frac{1}{||w||} ~ min_{x_i} ~ r \\ st. ~~~ y_i (w^Tx_i ~+~ b) ~>~ r \end{array} \right.$

再令 r = 1,
$\left\{ \begin{array}{l} max \frac{1}{||w||} \\ st. ~~~ y_i (w^Tx_i ~+~ b) ~≥~ 1 \end{array} \right.$
$\left\{ \begin{array}{l} min~ \frac{1}{2} w^T w \\ st. ~~~ y_i (w^Tx_i ~+~ b) ~≥~ 1 \end{array} \right.$

再得出原问题:
$\left\{ \begin{array}{l} min~ \frac{1}{2} w^T w \\ st. ~~~ 1 - y_i (w^Tx_i ~+~ b) ~≤~ 0 \end{array} \right.$

此时我们用一下拉格朗日乘子，将约束条件去掉:
$\left\{ \begin{array}{l} min_{w, b} ~ max_{α} ~ \frac{1}{2} w^T w ~+~ \sum_{i=1}^{N}{α_i(1 ~-~ y_i(w^Tx_i ~+~ b))} \\ st. ~~~ α_i > 0 \end{array} \right.$

接下来这一步涉及对偶问题，必须在满足KTT条件的时候进行。

$\left\{ \begin{array}{l} max_{α} ~ min_{w, b} ~ \frac{1}{2} w^T w ~+~ \sum_{i=1}^{N}{α_i(1 ~-~ y_i(w^Tx_i ~+~ b))} \\ st. ~~~ α_i > 0 \end{array} \right.$

min max L ≥ max min L
这里插入此题满足的KKT条件(如果想了解KKT条件，可以看后边的不等式约束优化问题的部分):
$\left\{ \begin{array}{l} \frac{\partial{L}}{\partial{w}} = 0, \frac{\partial{L}}{\partial{b}} = 0, \frac{\partial{L}}{\partial{α}} = 0 \\ α_i(1 ~-~ y_i(w^Tx_i + b)) = 0 \\ α_i > 0 \\ 1 ~-~ y_i(w^Tx_i ~+~ b) ~≤~ 0 \end{array} \right.$
其中， α _i (1 - y _i (w^Tx _i + b)) = 0 是松弛互补条件。

然后我们回到上面那个式子
$\left\{ \begin{array}{l} min_{w, b} ~ max_{α} ~ \frac{1}{2} w^T w ~+~ \sum_{i=1}^{N}{α_i(1 ~-~ y_i(w^Tx_i ~+~ b))} \\ st. ~~~ α_i > 0 \end{array} \right.$

对目标函数进行展开得到:
$min_{w, b}L ~=~ \frac{1}{2} w^Tw + \sum_{i=1}^{N}{α_i (1 ~-~y_i(w^Tx_i ~+~ b))} \\ ~=~ \frac{1}{2} w^Tw + \sum_{i=1}^{N}{α_i} - \sum_{i=1}^{N}{α_i~y_i~w^Tx_i} ~-~ \sum_{i=1}^{N}{α_i~y_i~b}$

令L对b的偏导为0，即

$\frac{\partial{L}}{\partial{b}} ~=~ - \sum_{i=1}^{N}{α_i~y_i} = 0$
$\sum_{i=1}^{N}{α_i~y_i} = 0$

令L对w偏导为0，即
$\frac{\partial{L}}{\partial{w}} ~=~ w - \sum_{i=1}^{N}{α_i~y_i~x_i} = 0$
$w^* = \sum_{i=1}^{N}{α_i^*~y_i~x_i}$

我们再将上述带入到原来的目标方程中,得到
$min_{w, b} L(w^*, b^*) \\ = \frac{1}{2} ( \sum_{i=1}^{N}{α_i~y_i~x_i})^T ~ \sum_{j=1}^{N}{α_j~y_j~x_j} ~+~ \sum_{i=1}^{N}α_i ~-~ \sum_{i=1}^{N} (α_i~y_i( \sum_{j=1}^{N}α_j~y_j~x_j)^Tx_i)$
$\frac{1}{2} ( \sum_{i=1}^{N} \sum_{j=1}^{N} α_i~α_j~y_i~y_j~x_i^T~x_j ~-~ \sum_{i=1}^{N} \sum_{j=1}^{N} α_i~α_j~y_i~y_j~x_j^T~x_i +\sum_{i=1}^{N} α_i ~~~~~~~~~~\\ ~= -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} α_i~α_j~y_i~y_j~x_i^T~x_j + \sum_{i=1}^{N} α_i ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~$

在上面合并的过程中，值得一提的是 x _i^T x _j = x _j^T x _i, 不明白的读者可以自行举个例子试一下就知道了。从原理上就是两个向量响应的位置相乘，得到一个个标量，再加起来，每一个标量都是相同的，故加起来也是相同的，因此两者必定相等。

接着由上式得到去约束的原问题为
$\left\{ \begin{array}{l} max_α ~-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} α_i~α_j~y_i~y_j~x_i^T~x_j + \sum_{i=1}^{N} α_i \\ st. ~~~ α_i > 0, ~~i = 1, 2, ..., N \end{array} \right.$
$\left\{ \begin{array}{l} min_α ~~\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} α_i~α_j~y_i~y_j~x_i^T~x_j + \sum_{i=1}^{N} α_i \\ st. ~~~ α_i > 0, ~~i = 1, 2, ..., N \end{array} \right.$

然后我们再考虑一下 b^*
由KTT条件中的 1 - y_i (w^Tx_i + b) ≤ 0 ,我们可以得到

∃(x_k, y_k), st.
1 - y_k (w^Tx_k + b) = 0
⇒ 1 = y_k (w^Tx_k + b)
两边同时乘以 y_k, 注意到二分类问题我们y的取值只有 +1和-1，故有
⇒ y_k = y_k² (w^Tx_k + b)
⇒ y_k = w^Tx_k + b

我们进而可以推出
$b^* ~=~ y_k - w^Tx_k ~~~~~~~~~~~~~~~~~~~~~~~\\ ~= y_k - (\sum_{i=1}^{N} α_i~y_i~x_i)^T~ x_k \\ ~= y_k - \sum_{i=1}^{N} α_i~y_i~x_i^T~ x_k ~~~~~$
最后一步转换是因为 α 和 y 都为标量。

故到这里我们知道
$\left\{ \begin{array}{l} w^* ~=~ \sum_{i=1}^{N} α_i^*~y_i~x_i \\ b^* ~~=~ y_k - \sum_{i=1}^{N} α_i~y_i~x_i^T~ x_k \end{array} \right.$

最后得到最优超平面方程
$f(x) ~=~ sign(w^{*T}x ~+~ b^*)$
其中，sign函数是
$\left\{ \begin{array}{l} 1, ~~~~if ~~x ~ > 0\\ 0, ~~~~if ~~x ~ = 0\\ -1, ~if ~~x ~ < 0 \end{array} \right.$

soft margin SVM

尽管我们已经有了hard margin SVM, 但是现实生活中并不总能保证支持向量中间没有数据点，这时候就得考虑一下soft margin SVM了。
我们有这样一种思路，如果数据点出现在支持向量中间，那么我们就对齐进行乘法，即像这种形式:
min 1/2 * w^T w + loss_function

我们针对loss_function来思考一下第一种思路。

思路1

我们来加个指示函数 q, 令 z = y_i (w^T x_i + b)
$\left\{ \begin{array}{l} 1, ~~~~if ~~z ~ < 1 \\ 0, ~~~~if ~~otherwisse \end{array} \right.$
即此时
$loss\_function ~=~ \sum_{i=1}^{N}{q\{ y_i(w^Tx_i ~+~ b) <1\}}$
但是我们会发现一个问题，这样的函数 q 并不可微，原因是当 z = 1 的时候函数突变了，故函数并不连续。

思路2

我们有另一种想法，就是如果里支持向量越远那么惩罚项应该越大，故此时我们有第二种思路。
if y_i (w^T x_i + b) ≥ 1, loss = 0
if y_i (w^T x_i + b) < 1, loss = 1 - y_i(w^Tx_i + b)

令 ξ _i = 1 - y_i (w^Tx _i + b),
故原问题为
$\left\{ \begin{array}{l} min \frac{1}{2} w^Tw ~+~ c \sum_{i=1}^{N}max\{0, ξ_i \} \\ st. ~~~ y_i(w^Tx_i ~+~ b) ≥ 1 - ξ_i \\ ξ_i ~≥~ 0 \end{array} \right.$
$\left\{ \begin{array}{l} min \frac{1}{2} w^Tw ~+~ c \sum_{i=1}^{N}ξ_i \\ st. ~~~y_i(w^Tx_i ~+~ b) ≥ 1 - ξ_i ~~, \\ ξ_i ~≥~ 0 \end{array} \right.$

因此应用拉格朗日乘子消掉约束条件得到目标函数L 为
$\frac{1}{2} w^Tw ~+~ C \sum_{i=1}^{N}ξ_i + \sum_{i=1}^{N}α_i(1~-~y_i(w^Tx_i~+~b)~-~ ξ_i) ~+~ \sum_{i=1}^{N} μ_i~ξ_i$
其中，α_i 和 μ_i 都是拉格朗日乘子。
我们对 w, b, ξ_i 偏导可得
$\sum_{i=1}^{N}{α_i~y_i~x_i} \\ 0 = \sum_{i=1}^{N}{a_i~y_i} ~~~\\ C ~=~ a_i ~+~ μ_i ~~~~~$
其中第一条式子和第二条式子计算过程与硬间隔差不多。然后第三条式子的计算:
$\frac{\partial{L}}{\partial{ξ_i }} = 0 ~+~ C ~-~ α_i ~-~ μ_i ~=~ 0$
$C = α_i ~+~ μ_i ~~~~~~~~~~~~~~~~~~~~~~~~~$

然后把上述结果带入到函数L中，得到
$min_{w, b, ξ_i} L(w, b, α, ξ, μ) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ ~= \frac{1}{2} w^Tw ~+~ C \sum_{i=1}^{N}ξ_i + \sum_{i=1}^{N}α_i(1~-~y_i(w^Tx_i~+~b)~-~ ξ_i) ~-~ \sum_{i=1}^{N} μ_i~ξ_i ~~~~~~~\\ ~= \frac{1}{2} w^Tw + \sum_{i=1}^{N}α_i(1~-~y_i(w^Tx_i~+~b)) + C\sum_{i=1}^{N}{ξ_i } ~-~ \sum_{i=1}^{N}{α_i~ξ_i} - \sum_{i=1}^{N} μ_i~ξ_i \\ ~= -\frac{1}{2}\sum_{i=1}^{N}α_i~y_i~x_i^T\sum_{i=1}^N{α_i~y_i~x_i} ~+ \sum_{i=1}^{N}α_i ~+ \sum_{i=1}^{N}{Cξ_i } ~-~ \sum_{i=1}^{N}{α_i~ξ_i} - \sum_{i=1}^{N} μ_i~ξ_i \\ ~= -\frac{1}{2}\sum_{i=1}^{N}α_i~y_i~x_i^T\sum_{i=1}^N{α_i~y_i~x_i} ~+ \sum_{i=1}^{N}α_i ~+ \sum_{i=1}^{N}{(C ~-~ μ_i ~-~ μ_i)ξ_i} ~~~~~~~~~~~~~~~\\ ~= \sum_{i=1}^{N}α_i ~-~ \frac{1}{2} \sum_{i=1}^{N}\sum_{j=1}^{N}α_i~α_j~y_i~y_j~x_i^Tx_j ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~$

插一句，这里u _i ξ _i前面的是符号，是为了和后面可以和 C 消掉，因为C = α_i + μ_i 。不知道对不对，还请大佬指教。

所以
$max_{α,μ}min_{w,b,ξ}L(w,b,α,ξ,μ) ~~~~~~~~~~~~~~~~~~~~~~~~~ \\ ~= max_{α,μ} \sum_{i=1}^{N}α_i ~-~ \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}α_i~α_j~y_i~y_j~x_i^T~x_j \\ ~= max_{α} \sum_{i=1}^{N}α_i ~-~ \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}α_i~α_j~y_i~y_j~x_i^T~x_j \\$

然后又因为
$α_i ~≥~ 0 ~~~~~~~~~~~\\ μ_i ~≥~ 0 ~~~~~~~~~~~\\ C ~=~ α_i ~+~ μ_i$
消去μ_i 可得等价约束条件为:
$0 ~≤~ α_i ~≤~ C, ~~i ~=~ 1,2,...,m$

这里满足的 KTT 条件为:
$\left\{ \begin{array}{l} α_i ~≥~ 0, ~μ_i ~≥~ 0 ,\\ y_if(x_i) ~-~ 1 ~+~ ξ_i ~≥~ 0, \\ α_i(y_if(x_i) ~-~ 1 ~+~ ξ_i) ~=~ 0, \\ ξ_i ~≥~ 0, ~~μ_i~ξ_i ~=~ 0 \end{array} \right.$
最终，原问题是
$\left\{ \begin{array}{l} min_{α} ~ \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}α_i~α_j~y_i~y_j~x_i^T~x_j ~-~ \sum_{i=1}^{N}α_i \\ s.t. \sum_{i=1}^{N}α_i α_j = 0, \\ 0 ≤ α_i ≤ C \end{array} \right.$

Kernel SVM

经过上面对硬间隔(hard margin, 也称线性可分)和软间隔(soft margin)的学习，我们可以用SVM解决线性问题。但是非线性问题该怎么办呢？比如著名的异或问题。
前辈们想到一个好办法，把原来的数据映射(变换)到一个更高的维度，使得原来的数据可以通过超平面来划分。
这就把解决线性问题的模型拓展到了非线性的领域里去了，这种变换对应的函数称为核函数，该操作也叫核技巧（kernel trick）。

因为有些问题并不一定可以有效地求出核函数具体的表达形式，但是我们可以通过直接用核函数替换内积 x_i^T x_j直接求出，即要计算x_i^T x_j，只要计算 K(x_i, x_j)即可，其中，K代表核函数。
前辈们总结了一些常用的核函数:

多项式核: k(x_i, x_j) = (x_i^T x_j + 1) ^d ,其中有些参考书是 k(x_i, x_j) = (x_i^T x_j) ^d,
，其中, d ≥ 1为多项式的次数
高斯核:
$k(x_i, x_j) ~=~ e^{-\frac{|| x_i ~-~ x_j||^2}{2σ^2}}$
其中，σ > 0 为高斯核的带宽(width)
Sigmoid核:
$k(x_i, x_j) ~=~ tanh(β~x_i^T~x_j ~+~ θ )$
其中，tanh为双曲正切函数，β > 0, θ < 0
拉普拉斯核:
$k(x_i, x_j) ~=~ e^{-\frac{|| x_i ~-~ x_j||}{σ}}$
其中，σ > 0 为高斯核的带宽(width)

不等式约束优化问题

还没结束呢，朋友们。由于这里涉及到不等式的优化问题，这里我们稍微来研究一下这个KKT条件。

等式约束优化问题

我们先来看看满足条件是的等号的情况:
$\left\{ \begin{array}{l} min f(x) \\ s.t. ~~~g(x) = 0 \end{array} \right.$
这里我们用拉格朗日乘子法,
$\Rightarrow L (x, λ) = f (x) + λ g (x)$
所以原问题是
$m i n L (x, λ) = f (x) + λ g (x)$
我们分别对x, λ求偏导, 得到
$_xL = ∇_xf(x) ~+~ λg(x) = 0 \\ ∇_λL = g(x) = 0 ~~~~~~~~~~~~~~~~~~~~~~$
因此
$-\frac{∇ _xf(x)}{∇ _xg(x)}$

不等式约束优化问题

看完这个例子之后,我们来看看不等式约束优化问题.

$\left\{ \begin{array}{l} min f(x) \\ s.t. ~~ g(x) ≤ 0 \end{array} \right.$
可行域 k ₌ {x ∈ Rⁿ | g(x) ≤ 0}
假设x^* 满足约束条件，分两种情况来讨论:

g(x^*) < 0, 最优解位于可行域 K 的内部，称为内部解, 此时约束是无效的
g(x^*) = 0, 最优解位于约束边界，简称边界条件。
∃ λ, ∇_xf = -λ∇_xg, 由于 f(x) 和 g(x)梯度相反，故 λ > 0,
此时 λ g(x) 恒等于 0，这个也是松弛互补条件

故这个问题的KKT条件即为:
$\left\{ \begin{array}{l} ∇_x f = 0, ~~∇_λ f = 0 \\ g(x) ≤ 0 \\ λg(x) = 0 \\ λ ≥ 0 \end{array} \right.$

结语

由于公式繁多，难免错漏，欢迎读者批评指正。SVM作为机器学习很火的一个算法，觉得还是很值得花点时间学习的。

参考书籍: 《机器学习》，周志华, 清华大学出版社