【机器学习】SVM原理公式推导和常见问题（1）

什么是SVM

是一种分类模型，求一个能使两类点分布在超平面两侧且间隔最大化的平面。实际中，分为线性可分SVM，线性SVM和非线性SVM。

什么是间隔

那么如何定义“间隔”？

假设一个数据集线性可分， $x\in R^n, y\in \{+1,-1\}$ ，超平面 $(\omega,b)$ 将点完全非离到平面两侧。点 $(x,y)$ 到平面 $(\omega ,b)$ 的距离为 $|\omega \cdot x+b|$ ，若点到平面的距离越远说明分类越可靠，反之越不可靠。若 $y(\omega \cdot x+b)$ 为正，则点被超平面正确分类，否则为负。所以 $y(\omega \cdot x+b)$ 可以代表分类的正确性和分类的确信度。

所以定义，数据集到平面的函数间隔为，离平面最近的点（即支持向量）到平面的函数间隔：

\hat{γ} = min \hat{γ_{i}} = min y_{i} (ω \cdot x_{i} + b)

$\hat{\gamma} = \min \hat{\gamma_i}=\min y_i(\omega \cdot x_i+b)$

但，由于同比例放大 $\omega和b$ ，没有改变平面但是函数间隔放大。所以定义几何间隔：

γ = min γ_{i} = min \frac{\hat{γ_{i}}}{| | ω | |}

$\gamma=\min \gamma_i = \min \frac{\hat{\gamma_i}}{||\omega||}$

线性可分SVM的学习思想

有了上面几何间隔的定义，则支持向量机学习的基本思想是，求解能够正确划分训练数据集并且使几何间隔最大化的分离超平面，表示为：

max_{ω, b} γ

$\max_{\omega,b} \gamma$

s . t . y_{i} (\frac{ω}{| | ω | |} \cdot x_{i} + \frac{b}{| | ω | |}) \geq γ, i = 1, 2, . . ., N

$s.t. y_i(\frac{\omega}{||\omega||}\cdot x_i + \frac{b}{||\omega||}) \geq \gamma,i=1,2,...,N$
为了方便求解，做如下变换。首先，将

γ = \frac{\hat{γ}}{| | ω | |}

$\gamma = \frac{ \hat{ \gamma} }{||\omega||}$ 代入原式。然后，因为函数间隔的大小变化，可以看做

(ω, b)

$(\omega,b)$ 的等比例变换，它的大小不影响超平面，所以可以令

\hat{γ} = 1

$\hat{\gamma}=1$ ，即目标函数变换为

max_{ω, b} \frac{1}{| | ω | |}

$\max_{\omega, b} \frac{1}{||\omega||}$ ，同时约束条件也

s . t . y_{i} (ω \cdot x_{i} + b) \geq 1, i = 1, 2, . . ., N

$s.t. y_i(\omega \cdot x_i+b) \geq 1,i=1,2,...,N$

最后，将目标函数取倒数并取平方，将原最大化化问题转化为凸最小化问题，

min \frac{1}{2} | | ω | |^{2}

$\min \frac{1}{2}||\omega||^2$

s . t . y_{i} (ω \cdot x_{i} + b) - 1 \geq 0, i = 1, 2, . . ., N

$s.t. y_i(\omega \cdot x_i+b) -1\geq 0,i=1,2,...,N$

系数 $\frac{1}{2}$ 也是为了后面求导时简化计算，这里先不解释。做这些变化的原因，是为了转化为凸优化问题，这样的好处是，凸优化问题的解如果存在一定是全局最优解。而对于线性可分数据集，一定存在超平面使点分隔在平面两侧，即解非空，所以上式问题解存在且唯一。

存在性证明：因为数据集线性可分多以一定存在可行解。有目标函数是凸函数有下界，所以一定存在最优解。有训练集既有正实例又有负实例，所以 $(\omega,b)=(0,b)$ 不是最优解，所以存在性得证。唯一性证明：较复杂，假设存在两个最优解 $(\omega_1^*,b^*)$ 和 $(\omega_2^*,b)$ ，想办法证明 $\omega_1^*=\omega_2^*$ 。同理，设两个最优解 $(\omega^*,b_1^*)$ 和 $(\omega^*,b_2^*)$ ，证明 $b_1^*=b_2^*$ 。证明过程略。

有关凸优化，可参考其他博文。

拉格朗日对偶性

前面推导了线性可分支持向量机的学习方法，下面，如何求解这个带约束的最优化问题？答案是，应用拉格朗日对偶性，它是将目标函数和约束条件“融合”到新的函数，即拉格朗日函数，变为非约束最优化问题，来方便求解。是一种求解约束的最优化问题的方法。下简单解释。原约束最小化问题，

min_{x \in R^{n}} f (x)

$\min_{x \in R^n} f(x)$

s . t . c_{i} (x) \leq 0, i = 1, 2, . . ., k

$s.t. c_i(x) \leq 0, i=1,2,...,k$

h_{i} (x) = 0, i = 1, 2, . . ., l

$h_i(x) =0,i=1,2,...,l$ 其中

α, β

$\alpha,\beta$ 是拉格朗日乘子，

α_{i} \geq 0

$\alpha_i\geq0$ 。
则拉格朗日函数为：

L (x, α, β) = f (x) + \sum_{i = 1}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{l} β_{j} h_{j} (x)

$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k}{\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)}$ 设函数

θ_{p}

$\theta_p$ 为，最大化拉格朗日函数

θ_{p} = max_{α, β; α_{i} \geq 0} L (x, α, β)

$\theta_p=\max_{\alpha,\beta;\alpha_i\geq0} L(x,\alpha,\beta)$ 因为当x满足所有的约束条件时，对所有

i, j

$i,j$ 有

α_{i} = 0, β_{j} = 0

$\alpha_i = 0,\beta_j = 0$ ,即

θ_{p} = f (x)

$\theta_p = f(x)$ ；当x不满足某个约束条件

c_{i}

$c_i$ 时，则可令

α_{i} \to + \infty

$\alpha_i \to +\infty$ ,即

θ_{p} = + \infty

$\theta_p=+\infty$ ，即

\begin{matrix} (2) & θ_{p} = {\begin{array}{lr} f (x), c_{i} (x) \leq 0, h_{j} (x) = 0, i = 1, 2, . . ., k, j = 1, 2, . . ., l \\ + \infty, o t h e r \end{array} \end{matrix}

$\theta_p = \begin{equation} \left\{ \begin{array}{lr} f(x),c_i(x) \leq0,h_j(x)=0,i=1,2,...,k,j=1,2,...,l & \\ +\infty, other & \end{array} \right. \end{equation}$ 所以，原约束最小化问题通过拉格朗日函数，转化为极小极大问题，即转化为非约束最值问题，即：

min_{x} θ_{p} (x) = min_{x} max_{α, β; α \geq 0} L (x, α, β)

$\min_{x} \theta_p(x) =\min_{x} \max_{\alpha,\beta;\alpha\geq0} L(x,\alpha,\beta)$ 理解了原极小极大问题

p^{*} = min_{x} θ_{p}

$p^*=\min_{x}\theta_p$ ，则定义对偶问题

d^{*} = max_{α, β} min_{x} L (x, α, β) = max_{α, β} θ_{d} (α, β)

$d^*=\max_{\alpha,\beta} \min_{x}L(x,\alpha,\beta)=\max_{\alpha,\beta}\theta_d(\alpha,\beta)$ 是一个极大极小问题。
重要的是， 原问题的解是否是对偶问题的解？有一个重要的定理

【定理1】考虑原约束最优化问题，假设函数 $f(x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数；并且假设不等式约束 $c_i(x)$ 是严格可行的，即存在x，对所有 $c_i(x)<0$ 则，存在 $x^*,\alpha^*,\beta^*$ ，使 $x^*$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解，并且 $p^*=d^*=L(x^*,\alpha^*,\beta^*)$

也就是说，对于凸优化问题，原问题与对偶问题同解。

理解了拉格朗日对偶性后，回到所要求解的间隔最大化问题。其思想是：首先，构造拉格朗日函数 $L(\omega,b,\beta)$ ，得原问题的对偶问题。然后，求出对偶问题的解。最后，通过KKT条件，求得原问题的解。

KKT条件是：
【定理2】考虑原约束最优化问题，假设函数 $f(x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数；并且假设不等式约束 $c_i(x)$ 是严格可行的， $x^*$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解，的充分必要条件是 $x^*,\alpha^*,\beta^*$ 满足：

\nabla_{x} L (x^{*}, α^{*}, β^{*}) = 0

$\nabla_x L(x^*,\alpha^*,\beta^*)=0$

\nabla_{α} L (x^{*}, α^{*}, β^{*}) = 0

$\nabla_\alpha L(x^*,\alpha^*,\beta^*)=0$

\nabla_{β} L (x^{*}, α^{*}, β^{*}) = 0

$\nabla_\beta L(x^*,\alpha^*,\beta^*)=0$

α_{i}^{*} c_{i} (x^{*}) = 0, i - 1, 2, . . ., k

$\alpha_i^*c_i(x^*)=0,i-1,2,...,k$

c_{i} (x^{*}) \leq 0, i = 1, 2, . . ., k

$c_i(x^*)\leq0,i=1,2,...,k$

α_{i}^{*} \geq 0, i = 1, 2, . . ., k

$\alpha_i^*\geq0,i=1,2,...,k$

h_{j} (x^{*}) = 0, j = 1, 2, . . ., l

$h_j(x^*)=0,j=1,2,...,l$

学习的对偶算法

原问题的拉格朗日函数为

L (ω, b, α) = \frac{1}{2} | | ω | |^{2} - \sum_{i = 1}^{N} α_{i} [y_{i} (ω \cdot x_{i} + b) - 1]

$L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2-\sum_{i=1}^{N}\alpha_i[y_i(\omega\cdot x_i+b)-1]$ 原问题为

min_{ω, b} max_{α} L (ω, b, α)

$\min_{\omega,b} \max_\alpha L(\omega,b,\alpha)$ 对偶问题为

max_{α} min_{ω, b} L (ω, b, α) = max_{α} θ_{d}

$\max_\alpha \min_{\omega,b} L(\omega,b,\alpha)=\max_\alpha \theta_d$ 其中对偶问题，

θ_{d} = min_{ω, b} L (ω, b, α)

$\theta_d = \min_{\omega,b} L(\omega,b,\alpha)$ ，分别对

ω

$\omega$ ，

b

$b$ 求偏导。【注意，这里

(| | ω | |^{2})^{‘} = ω

$(||\omega||^2)^`=\omega$ ，即求向量2范数平方的导数，是对向量的每一项求导，再写回向量形式】

\nabla_{ω} L (ω, b, α) = ω - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0 \Rightarrow ω = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}

$\nabla_\omega L(\omega,b,\alpha)=\omega-\sum_{i=1}^{N}\alpha_iy_ix_i=0 \Rightarrow \omega=\sum_{i=1}^{N}\alpha_iy_ix_i$

\nabla_{b} L (ω, b, α) = \sum_{i = 1}^{N} α_{i} y_{i} = 0

$\nabla_b L(\omega,b,\alpha)=\sum_{i=1}^{N}\alpha_iy_i=0$ 代入拉格朗日函数式简化得

L = \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i} + b) + \sum_{i = 1}^{N} α_{i} = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

$L=\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) - \sum_{i=1}^{N}\alpha_iy_i((\sum_{j=1}^{N}\alpha_jy_jx_j)\cdot x_i+b)+\sum_{i=1}^{N}\alpha_i=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^{N}\alpha_i$ 即

θ_{d} = min_{ω, b} L (ω, b, α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

$\theta_d=\min_{\omega,b} L(\omega,b,\alpha)=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^{N}\alpha_i$ 然后，求

max_{α} θ_{d}

$\max_\alpha \theta_d$ 即

max_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

$\max_\alpha -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_j y_iy_j(x_i\cdot x_j) +\sum_{i=1}^{N}\alpha_i$

s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0

$s.t. \sum_{i=1}^{N}\alpha_iy_i=0$

α_{i} \geq 0, i = 1, 2, . . ., N

$\alpha_i\geq0,i=1,2,...,N$ 根据【 定理1】，原问题是凸优化问题，所以存在

ω^{*}, b^{*}, α^{*}

$\omega^*,b^*,\alpha^*$ ，使得

ω^{*}, b^{*}

$\omega^*,b^*$ 是原问题的解，

α^{*}

$\alpha^*$ 是对偶问题的解。假设

α^{*} = (α_{1}^{*}, α_{2}^{*}, . . ., α_{N}^{*})

$\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)$ 是对偶问题的解，则原问题的解通过【定理2】的KKT条件求得，即对任意使得

α_{j}^{*} > 0

$\alpha_j^*>0$ 的下标j

ω^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}

$\omega^*=\sum_{i=1}^{N}\alpha_i^*y_ix_i$

b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

$b^*=y_j-\sum_{i=1}^{N}\alpha_i^*y_i(x_i\cdot x_j)$

为什么是这样计算的呢？？根据【定理1】，KKT条件成立，则有

\nabla_{ω} L (ω^{*}, b^{*}, α^{*}) = ω^{*} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} = 0 \Rightarrow ω^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}

$\nabla_\omega L(\omega^*,b^*,\alpha^*)=\omega^*-\sum_{i=1}^{N}\alpha_i^*y_ix_i=0 \Rightarrow \omega^*=\sum_{i=1}^{N}\alpha_i^*y_ix_i$

\nabla_{b} L (ω^{*}, b^{*}, α^{*}) = \sum_{i = 1}^{N} α_{i}^{*} y_{i} = 0

$\nabla_b L(\omega^*,b^*,\alpha^*)=\sum_{i=1}^{N}\alpha_i^*y_i=0$

α_{i}^{*} (y_{i} (ω^{*} \cdot x_{i} + b^{*}) - 1) = 0, i = 1, 2, . . ., N

$\alpha_i^*(y_i(\omega^*\cdot x_i+b^*)-1)=0 , i=1,2,...,N$

y_{i} (ω^{*} \cdot x_{i} + b^{*}) - 1 \geq 0, i = 1, 2, . . ., N

$y_i(\omega^*\cdot x_i +b^*)-1\geq0 , i=1,2,...,N$

α_{i}^{*} \geq 0, i = 1, 2, . . ., N

$\alpha_i^*\geq0,i=1,2,...,N$ 其中，至少存在一个

α_{j}^{*} > 0

$\alpha_j^*>0$ （若

α^{*} = 0

$\alpha^*=0$ ，则

ω^{*} = 0

$\omega^*=0$ ，但由于同时存在正实例和负实例所以

ω^{*} = 0

$\omega^*=0$ 不是原问题的解），对此j有

y_{j} (ω^{*} \cdot x_{j} + b^{*}) - 1 = 0

$y_j(\omega^*\cdot x_j+b^*)-1=0$ 又由于

y_{j}^{2} = 1

$y_j^2=1$ 则

y_{j} (ω^{*} \cdot x_{j} + b^{*}) = y_{j}^{2} \Rightarrow b^{*} = y_{j} - ω^{*} \cdot x_{j}

$y_j(\omega^*\cdot x_j+b^*)=y_j^2 \Rightarrow b^*=y_j-\omega^*\cdot x_j$ 再将

ω^{*} = \sum_{i = 1}^{N} α_{i} * y_{i} x_{i}

$\omega^*=\sum_{i=1}^{N}\alpha_i*y_ix_i$ 得证

参考文献：《统计学习方法》