【机器学习】SVM原理公式推导及常见问题（2）

软间隔最大化

接着上篇的最基本的支持向量机模型，下面介绍“软间隔”最大化。简单来说，就是对间隔放宽一个系数 $\xi_i$ 目标函数为：

min_{ω, b, ξ} \frac{1}{2} | | ω | |^{2} + C \sum_{i = 1}^{N} ξ_{i}

$\min_{\omega,b,\xi} \frac{1}{2}||\omega||^2+C\sum_{i=1}^{N}\xi_i$

s . t . y_{i} (ω \cdot x_{i} + b) \geq 1 - ξ_{i}, i = 1, 2, . . ., N

$s.t. y_i(\omega\cdot x_i+b)\geq1-\xi_i, i=1,2,...,N$

ξ_{i}, i = 1, 2, . . ., N \geq 0

$\xi_i,i=1,2,...,N\geq0$
其中，

C

$C$ 代表惩罚系数，惩罚系数越大，目标函数对于松弛系数

ξ_{i}

$\xi_i$ 越严苛。

合页损失函数

软间隔最大化问题，可以转化为合页损失函数最小化问题。令 $\xi_i=1-y_i(\omega\cdot x_i+b), \xi_i \geq0$ ，所以

[1 - y_{i} (ω \cdot x_{i} + b)]_{+} = [ξ_{i}]_{+} = ξ_{i}

$[1-y_i(\omega\cdot x_i+b)]_+=[\xi_i]_+=\xi_i$
其中

\begin{matrix} (13) & [z]_{+} = {\begin{array}{lr} z, z \geq 0 \\ 0, o t h e r \end{array} \end{matrix}

$[z]_+= \begin{equation} \left\{ \begin{array}{lr} z,z \geq0& \\ 0, other & \end{array} \right. \end{equation}$ 所以

min_{ω, b} \frac{1}{2} | | ω | |^{2} + C \sum_{i = 1}^{N} [1 - y_{i} (ω \cdot x_{i} + b)]_{+}

$\min_{\omega,b}\frac{1}{2}||\omega||^2+C\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_+$ 令

λ = \frac{1}{2 C}

$\lambda=\frac{1}{2C}$ ，则原目标函数转化为

min_{ω, b} \sum_{i = 1}^{N} [1 - y_{i} (ω \cdot x_{i} + b)]_{+} + λ | | ω | |^{2}

$\min_{\omega,b}\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_++\lambda||\omega||^2$ 其中，第一项，称为合页损失函数

[1 - y (ω \cdot x + b)]_{+}

$[1-y(\omega\cdot x+b)]_+$ ，是经验风险；第二项，系数

λ

$\lambda$ 乘以

ω

$\omega$ 的

L_{2}

$L_2$ 范数的平方，是正则化项。

支持向量

对偶问题的解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 中， $\alpha_i^*>0$ 的实例 $(x_i,y_i)$ 被称为支持向量，点到分离超平面的距离为 $\frac{\xi_i}{||\omega||}$

非线性支持向量机

非线性可分的数据集，需要用核技巧，即经过非线性变换，将原空间转到特征空间，通过在特征空间求解线性问题，求解原问题。其中，若将x空间变换到z空间的映射 $z=\phi(x)$ ，则称函数 $K(x,z)=\phi(x)\cdot\phi(z)$ 是核函数，K是 $\phi(x)$ 与 $\phi(z)$ 的内积。

支持向量机是如何引入核函数的概念进行非线性化的？注意，支持向量机对偶问题中

θ_{d} = m a x_{ω, b} \frac{1}{2} \sum_{i - 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{i} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}

$\theta_d=max_{\omega,b}\frac{1}{2}\sum_{i-1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_i(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i$ 包含向量的内积

(x_{i} \cdot x_{j})

$(x_i\cdot x_j)$ ，自然想到，如果做非线性变换，可以引入核函数

K (x, z)

$K(x,z)$ 。所以，非线性支持向量机对偶问题目标函数为，

W (α) = \frac{1}{2} \sum_{i - 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{i} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}

$W(\alpha)= \frac{1}{2}\sum_{i-1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_iK(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i$

常用核函数

一般情况下，很难知道一个合适的映射 $z=\phi(x)$ 。且如果将输入空间映射到特征空间，再对特征空间做内积，可能会由于特征空间维度过高使得计算量很大。所以，直接在输入空间定义运算 $K(x,z)$ 。

在不知道映射 $z=\phi(x)$ 时，如果要定义一个 $K(x,z)$ 是核函数，必须满足 $K(x,z)$ 是正定核函数，即对于任意 $x_i\in\chi,i=1,2,...,m$ ， $K$ 的 $Gram$ 矩阵 $[K(x_i,x_j)]_{m\times m}$ 是半正定矩阵。实际情况中，任意一个核 $K(x,z)$ 都要对数据集检验 $Gram$ 矩阵是否为半正定矩阵，才能确定他是不是一个核函数，但是验证是非常复杂的。所以有一些常用的核函数方便使用。

线性核函数： $K(x,z)=x\cdot z$
多项式核函数： $K(x,z)=(x\cdot z+1)^p$
高斯核函数： $K(x,z)=\exp(-\frac{||x-z||^2}{2\sigma^2})$
混合核： $\lambda K_1(x,z)+(1-\lambda)K_2(x,z),0\leq\lambda<1$

通常根据数据集的特性选择核，选择交叉验证下误差最小的。

参考：
1. SVM核函数