应用机器学习（五）：支持向量机

支持向量机

支持向量机 ( support vector machine/SVM )，是一类有监督的学习算法，主要用于分类和回归问题。它的基本原理是：给定一个训练集，其中的每个实例标记属于两类之一。一个 SVM 算法，表示训练实例为特征空间里的点，它构建一个非概率的二值分类器，将特征空间用一个尽可能宽的”gap”一分为二，使得相同类的训练实例被分到同一个子空间里。对于一个新实例，根据它映射到”gap”的哪一边，将它分到对应的类中。这条”gap”也称为决策边界( decision boundary )，根据它是否为线性形式，称对应的 SVM 分类器为线性(或非线性)分类器。

线性 SVM 分类器

Hard-margin

假设训练集由 $N$ 个点 $(\vec{x}_1, y_1), (\vec{x}_2, y_2), \dots, (\vec{x}_N, y_N)$ 组成。其中， $\vec{x}_i\in \mathbb{R}^p$ , 所属类标签 $y_i\in \{ -1, 1 \}$ 。现在，我们想找到最大间隔超平面( hyperplane )，分隔来自两类的这 $N$ 个点。该超平面到离它最近的点的距离是最大的。

定义一个超平面：

{x ⃗ : w ⃗ \cdot x ⃗ + b ⃗ = 0}

$\{ \vec{x} : \vec{w}\cdot\vec{x}+\vec{b}=0 \}$
如果训练集是线性可分的，那么我们能找到两个平行的超平面
分隔这两类实例，使得它们之间的距离尽可能地大。由这两个超平面界定的区域称为间隔( margin )，称位于间隔中间的超平面为最大间隔超平面。

间隔超平面可以表示为

w ⃗ \cdot x ⃗ + b = \pm 1 (1)

$\vec{w}\cdot\vec{x}+b=\pm 1\tag{1}$
几何上，这两个间隔超平面的距离为

2||w⃗ || $\dfrac{2}{||\vec{w}||}$ ，因此，最大化它们之间的距离，等价于最小化

||w⃗ || $||\vec{w}||$ 。同时，还要保证两类的数据点分别位于由这两个间隔超平面分隔出的子空间内，即，

w ⃗ \cdot x ⃗ i + b {\geq 1, \leq - 1, if y i = 1 if y i = - 1 (2)

$\begin{equation*} \vec{w}\cdot\vec{x}_i + b \begin{cases} \ge 1, &\mbox{if $y_i=1$ }\\ \le -1, &\mbox{if $y_i=-1$ } \end{cases} \tag{2} \end{equation*}$

(2)式可以重写为

y i (w ⃗ \cdot x ⃗ i + b) \geq 1, i = 1, 2, \dots, N (3)

$y_i (\vec{w}\cdot\vec{x}_i+b)\ge 1,\,\,i=1,2,\dots,N \tag{3}$
这样，超平面的解等价于优化问题

M i n i m i z e w ⃗, b 1 2 | | w ⃗ | | 2 s . t . y i (w ⃗ \cdot x ⃗ i + b) \geq 1, i = 1, 2, \dots, N (4)

$\begin{align*} & \mathop{Minimize}_{\vec{w}, \,b} \,\,\, \dfrac{1}{2}||\vec{w}||^2 \\ & s.t. \,\,\, y_i (\vec{w}\cdot\vec{x}_i+b)\ge 1,\,\,i=1,2,\dots,N \tag{4} \end{align*}$

优化函数是凸的，因此存在唯一的全局最小值。解 $\vec{w}, \, b$ 确定了分类器

x ⃗ \mapsto s g n (w ⃗ \cdot x ⃗ + b) (5)

$\vec{x} \mapsto sgn(\vec{w}\cdot\vec{x}+b)\tag{5}$
值得注意的是，最大间隔超平面完全由离它最近的那些点决定，称这样的点为支持向量( support vectors )。

Soft-margin

假设数据不是线性可分的，如图5所示。这时仍然最大化两个间隔超平面的距离，允许一些点“跑到”错误的一边去，但要“惩罚”它们。为此，引入松弛变量( slack variables ) $\xi_1, \xi_2, \dots, \xi_N$ , $\xi_i\ge 0$ .

当 $\xi_i>1$ 时，发生错分，因此，限制 $\sum\limits_{i=1}^N\xi_i\le K$ , 此即训练的错分总数控制在 $K$ 以内。这样，约束条件变为

y i (w ⃗ \cdot x ⃗ i + b) \geq 1 - ξ i, ξ i \geq 0, \sum i = 1 N ξ i \leq K i = 1, 2, \dots, N (6)

$\begin{align*} & y_i (\vec{w}\cdot\vec{x}_i+b)\ge 1-\xi_i, \\ & \xi_i\ge 0,\,\sum\limits_{i=1}^N\xi_i\le K \,\,i=1,2,\dots,N \tag{6} \end{align*}$

最终，解带惩罚项的优化问题

M i n i m i z e w ⃗, b 1 2 | | w ⃗ | | 2 + C \sum i = 1 N ξ i s . t . y i (w ⃗ \cdot x ⃗ i + b) \geq 1 - ξ i, i = 1, 2, \dots, N ξ i \geq 0, i = 1, 2, \dots, N . (7)

$\begin{align*} & \mathop{Minimize}_{\vec{w}, \,b} \,\,\, \dfrac{1}{2}||\vec{w}||^2 + C\sum\limits_{i=1}^N\xi_i\\ & s.t. \,\,\, y_i (\vec{w}\cdot\vec{x}_i+b)\ge 1-\xi_i,\,\,i=1,2,\dots,N \\ & \qquad\xi_i\ge 0,\,\,i=1,2,\dots,N. \tag{7} \end{align*}$

注意：

(1). 算法并不是最小化错分类数，而是最小化间隔超平面的距离；

(2). 可以用 $\xi_i^2$ 代替 $\xi_i$ ；

(3). 当 $C\rightarrow 0$ 时，得到 Hard-margin 的解。

Hard-margin vs Soft-margin SVM 比较

计算 SVM 分类器

为了计算 Soft-margin SVM 分类器，即求解(7)，(7)是一个带有线性不等式约束的凸优化问题，称 primal 问题，我们采用拉格朗日乘子法( Lagrange multipliers )。

令 Lagrange ( primal )函数

L P = 1 2 | | w ⃗ | | 2 + C \sum i = 1 N ξ i - \sum i = 1 N α i [y i (w ⃗ \cdot x ⃗ i + b) - (1 - ξ i)] - \sum i = 1 N μ i ξ i (8)

$L_P=\dfrac{1}{2}||\vec{w}||^2+C\sum\limits_{i=1}^N \xi_i-\sum\limits_{i=1}^N\alpha_i [y_i(\vec{w}\cdot\vec{x}_i+b)-(1-\xi_i)]-\sum\limits_{i=1}^N\mu_i\xi_i\tag{8}$
最小化

w⃗ ,b,ξi $\vec{w},\,b,\,\xi_i$ 的函数

LP $L_P$ ，由于最小值在导数为0的点，故分别求导

w ⃗ = \sum i = 1 N α i y i x ⃗ i 0 = \sum i = 1 N α i y i α i = C - μ i, f o r \forall i (9) (10) (11)

$\begin{align*} & \vec{w}=\sum\limits_{i=1}^N \alpha_i y_i \vec{x}_i \tag{9} \\ & 0=\sum\limits_{i=1}^N \alpha_i y_i \tag{10} \\ & \alpha_i=C-\mu_i,\, for \,\, \forall i \tag{11} \end{align*}$

αi,μi,ξi≥0,∀i $\alpha_i,\,\mu_i,\,\xi_i\ge 0,\,\forall i$ . 将(9)——(11)代入(8)，得到
Lagrangian dual 目标函数

L D = \sum i = 1 N α i - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j x ⃗ i \cdot x ⃗ j (12)

$L_D=\sum\limits_{i=1}^N \alpha_i-\dfrac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_j y_i y_j \vec{x}_i\cdot \vec{x}_j\tag{12}$

LD $L_D$ 给出了目标函数(7)的下界，因此

M a x i m i z e L D s . t . 0 \leq α i \leq C, \sum i = 1 N α i y i = 0 (13)

$\begin{align*} & \mathop{Maximize}\,\,\, L_D \\ & s.t. \,\,\, 0 \le\alpha_i\le C,\,\, \sum\limits_{i=1}^N\alpha_i y_i=0 \tag{13} \end{align*}$

同时，Karush–Kuhn–Tucker 条件包括约束

α i [y i (w ⃗ \cdot x ⃗ i + b) - (1 - ξ i)] = 0 μ i ξ i = 0 y i (w ⃗ \cdot x ⃗ i + b) - (1 - ξ i) \geq 0 (14) (15) (16)

$\begin{align*} & \alpha_i[y_i(\vec{w}\cdot\vec{x}_i+b)-(1-\xi_i)]=0\tag{14} \\ & \mu_i\xi_i=0 \tag{15} \\ & y_i(\vec{w}\cdot\vec{x}_i+b)-(1-\xi_i)\ge 0 \tag{16} \end{align*}$

$i=1, 2, \dots, N$ . 联合方程(9)——(16)，得 primal 问题的解

w ⃗ = \sum i = 1 N α^i y i x ⃗ i (17)

$\vec{w}=\sum\limits_{i=1}^N \hat{\alpha}_i y_i \vec{x}_i\tag{17}$

α^i=0 $\hat{\alpha}_i=0$ ，当

x⃗ i $\vec{x}_i$ 位于正确的一边时；

0<α^i≤C $0 < \hat{\alpha}_i \le C$ ，当

x⃗ i $\vec{x}_i$ 位于边界时，即为支持向量。
因此，

w⃗ $\vec{w}$ 是支持向量的线性组合。
通过边界上的点

x⃗ i $\vec{x}_i$ 解

b $b$

y i (w ⃗ \cdot x ⃗ i + b) = 1 ⟺ b = y i - w ⃗ \cdot x ⃗ i (18)

$y_i(\vec{w}\cdot\vec{x}_i+b)=1 \Longleftrightarrow b=y_i-\vec{w}\cdot\vec{x}_i\tag{18}$

注意， $y_i^{-1}=y_i$ ，由于 $y_i=\pm 1$ .

最后，得到分类器

x ⃗ \mapsto s g n (w ⃗ \cdot x ⃗ + b) (19)

$\vec{x} \mapsto sgn(\vec{w}\cdot\vec{x}+b)\tag{19}$

SVM与核

假设训练数据在输入特征空间是非线性可分的，我们想找到一个函数 $\Phi(\mathbf{x})$ ，将数据映射到更高维的空间，在这个空间里，映射的数据是线性可分的。那么，我们利用之前的方法构建线性SVM。通常，线性SVM实现更好的分类效果和更低的时间复杂度。

SVM对偶公式

称线性SVM在映射后的空间里的形式为对偶( dual )，那么，(7)的对偶形式为

M i n i m i z e w ⃗, b 1 2 | | w ⃗ | | 2 + C \sum i = 1 N ξ i s . t . y i (w ⃗ \cdot Φ (x i) \to + b) \geq 1 - ξ i, i = 1, 2, \dots, N ξ i \geq 0, i = 1, 2, \dots, N . (20)

$\begin{align*} & \mathop{Minimize}_{\vec{w}, \,b} \,\,\, \dfrac{1}{2}||\vec{w}||^2 + C\sum\limits_{i=1}^N\xi_i\\ & s.t. \,\,\, y_i (\vec{w}\cdot\vec{\Phi(x_i)}+b)\ge 1-\xi_i,\,\,i=1,2,\dots,N \\ & \qquad\xi_i\ge 0,\,\,i=1,2,\dots,N. \tag{20} \end{align*}$

(13)的对偶形式为

M a x i m i z e \sum i = 1 N α i - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j Φ (x i) \to \cdot Φ (x j) \to s . t . 0 \leq α i \leq C, \sum i = 1 N α i y i = 0 (21)

$\begin{align*} & \mathop{Maximize}\,\,\, \sum\limits_{i=1}^N \alpha_i-\dfrac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_j y_i y_j \vec{\Phi(x_i)}\cdot \vec{\Phi(x_j)} \\ & s.t. \,\,\, 0 \le\alpha_i\le C,\,\, \sum\limits_{i=1}^N\alpha_i y_i=0 \tag{21} \end{align*}$

式(21)的解为

w ⃗ = \sum i = 1 N α^i y i Φ (x i) \to (22)

$\vec{w}=\sum\limits_{i=1}^N \hat{\alpha}_i y_i \vec{\Phi(x_i)}\tag{22}$

这样，

y i (w ⃗ \cdot Φ (x i) \to + b) = 1 ⟺ b = y i - w ⃗ \cdot Φ (x i) \to (23)

$y_i(\vec{w}\cdot\vec{\Phi(x_i)}+b)=1 \Longleftrightarrow b=y_i-\vec{w}\cdot\vec{\Phi(x_i)}\tag{23}$

SVM 分类器

x ⃗ \mapsto s g n (w ⃗ \cdot Φ (x) \to + b) (24)

$\vec{x} \mapsto sgn(\vec{w}\cdot\vec{\Phi(x)}+b)\tag{24}$

下面举个例子

The Kernel Trick

式(21)中， $\vec{\Phi(x_i)}\cdot \vec{\Phi(x_j)}$ 表示先将原特征空间的向量 $x_i,\,x_j$ 通过函数 $\Phi(\cdot)$ 映射到高维空间，然后对映射后的新向量 $\vec{\Phi(x_i)},\,\vec{\Phi(x_j)}$ 作内积。实际上，我们并不需要映射 $\Phi(\cdot)$ ，而只需要找到一个函数 $K(\cdot , \cdot)$ ，使得 $K(x_i, x_j)=\vec{\Phi(x_i)}\cdot \vec{\Phi(x_j)}$ . 称这样的函数 $K(\cdot , \cdot)$ 为核函数( kernel function )。

假设特征空间是 $d$ 维的，那么，核函数 $K$ 是 $\mathbb{R}^d\times\mathbb{R}^d$ 到 $\mathbb{R}$ 的实值对称函数，满足 $K( x, z )=\Phi(x)^{T} \Phi(z)$ . 在 SVM，流行的核函数有：

Linear kernel: $K( x, z )=x' z$

$d$ th-Degree polynomial: $K( x, z )= ( 1 + x' z )^d$

Radial basis: $K( x, z )=e^{-\gamma || x-z ||^2}$

Neural network: $K( x, z )=tanh(\kappa_1 x'z + \kappa_2)$

利用核函数，可以避免在高维空间求解优化问题。给定核函数 $K( \cdot , \cdot )$ , 对于固定的 $i$ , 式(23)等价于

b = y i - \sum j = 1 N α^j y j Φ (x j) \to \cdot Φ (x i) \to = y i - \sum j = 1 N α^j y j K (x j, x i) (25)

$b=y_i - \sum\limits_{j=1}^N \hat{\alpha}_j y_j \vec{\Phi(x_j)}\cdot \vec{\Phi(x_i)} =y_i - \sum\limits_{j=1}^N \hat{\alpha}_j y_j K(x_j, x_i)\tag{25}$

最终的 SVM 分类器

x ⃗ \mapsto s g n (w ⃗ \cdot Φ (x) \to + b) = s g n (\sum i = 1 N α^i y i K (x i, x) + b) (26)

$\vec{x} \mapsto sgn(\vec{w}\cdot\vec{\Phi(x)}+b)= sgn(\sum\limits_{i=1}^N \hat{\alpha}_i y_i K(x_i, x) + b)\tag{26}$

实例：分类银行客户的欠贷者

现在有一个银行客户的数据集 Bank_dataset.csv 包括5000个客户，12个特征，以 Personal loan (0-1 二值)作为目标变量。这14个特征(或变量)分别是：

ID —— 客户 ID
Age —— 客户年龄
Experience —— 工龄
Income —— 客户年收入
Zip Code —— 家庭地址的邮政编码
Family —— 客户家庭人数
CCAvg —— 每月信用卡的平均消费额
Education —— 教育水平 1: 大学以下 2: 大学 3: 大学以上
Mortgage —— 抵押价值
Securities Account —— 客户是否在银行开户
CD Account —— 客户是否在银行存款
Online —— 客户是否使用网上银行
CreditCard —— 客户是否使用信用卡
Personal Loan —— 客户是否拖欠贷款

其中，1为客户 ID，2-13为输入特征，14为分类的目标变量。

可到百度网盘：http://pan.baidu.com/s/1geHMxAN 下载该数据集。

下面，将数据集 Bank_dataset.csv 按7:3分成训练集和检验集两部分。在训练集上训练线性 SVM 分类器，在检验集上预测 Personal Loan 的状态，计算分类的准确率。主要应用 e1071 包的 svm 函数，R 代码如下：

rm(list=ls(all=T))
dir <- "E:/机器学习/论文/代码/svm"
# set dir as the working directory
setwd(dir) 

data=read.csv("Bank_dataset.csv")
str(data)
# dropping three fields from original dataset
drop_atr <- c("ID","ZIP.Code","Experience")
names <- setdiff(colnames(data),drop_atr)
final_data <- data[names]
str(final_data)

library(e1071)

# segmenting final_data into trainset and testset
set.seed(123)
ind <- sample(2, nrow(final_data), replace = TRUE, prob=c(0.7, 0.3))
trainset <- final_data[ind == 1,]
testset <- final_data[ind == 2,]
ind_Atr <- setdiff(colnames(trainset),"Personal.Loan")
table(trainset$Personal.Loan)
table(testset$Personal.Loan)
trainset$Personal.Loan <- as.factor(trainset$Personal.Loan)

model <- svm(trainset[ind_Atr], trainset$Personal.Loan, 
          type="C-classification", kernel="linear")

summary(model)

# testing with testset
pred_test <- predict(model,testset[ind_Atr])
pred_test2 <- table(testset$Personal.Loan,pred_test)
# counting prediction accuracy
acc_test <- sum(diag(pred_test2))/sum(pred_test2)

阅读更多精彩内容，请关注微信公众号”统计学习与大数据”！