【机器学习】支持向量机原理及例题详解

专栏持续更新中，欢迎订阅~
Linux
数据结构与算法
 机器学习

文章目录

优化目标

引入

我们先从回顾一下Logistic回归，看看Logistic回归是如何演变为支持向量机的。

在这里插入图片描述

当 $y = 1$ 时，如果我们希望 $h_{\theta}(x)≈1$ ，则 $\theta^{T}x$ 远大于0.

当 $y = 0$ 时，如果我们希望 $h_{\theta}(x)≈0$ ，则 $\theta^{T}x$ 远小于0.

下面是每个样本的代价函数，注意没有求和，代表每个单独的训练样本对Logistic回归的总体目标函数的贡献。

在这里插入图片描述

然后我们将 $h_{\theta}(x)$ 的具体公式带入进去，得到的就是每个训练样本对总体函数的具体贡献：

在这里插入图片描述

现在我们再来考虑 $y = 1, y = 0$ 的情况，函数图像如下：

在这里插入图片描述

下面我们 $y = 1$ 为例，用两条直线近似等效曲线，来向支持向量机转换，例如我以 $z = 1$ 为起点，作两条直线近似取代曲线 $-log\frac{1}{1+e^{-z}}$ ，同理 $y = 0$ 时也一样。

在这里插入图片描述

当 $y = 1$ 时，两条直线记为 $Cost_1(z)$ 。

当 $y = 0$ 时，两条直线记为 $Cost_0(z)$ 。

构建支持向量机

这是我们在Logistic回归中使用的正规化代价函数 $J(\theta)$

在这里插入图片描述

然后我们用 $Cost_1(\theta^{T}x^{(i)})$ 和 $Cost_0(\theta^{T}x^{(i)})$ 将 $-logh_{\theta}(x^{(i)})$ 和 $-log(1-h_{\theta}(x^{(i)}))$ 代替，去掉 $\frac{1}{m}$ ，然后对于正规项，我们不再用 $\lambda$ 来控制正规项的权重，而选择用不同的常数C来控制第一项的权重，最后我们得到支持向量机的总体优化目标如下：

在这里插入图片描述

与Logistic回归不同的是，sigmoid函数输出的不是概率，而是直接输出0或者1。

在这里插入图片描述

直观理解SVM

这是SVM的代价函数和图像：

在这里插入图片描述

下面我们来想一下如何让代价函数最小化。

若 $y = 1$ ，则当 $\theta^{T}x≥1$ 时， $Cost_1(z)=0$ .

若 $y = 0$ ，则当 $\theta^{T}x≤-1$ 时， $Cost_2(z)=0$ .

下面我们想象一下，如果将常数C设得比较大，例如C=100000，那么当进行最小化时，我们将迫切希望找到一个合适的值，使第一项等于0，那么现在我们试着在这种情况下来理解优化问题。

在这里插入图片描述

要使第一项为0，则有以下两种情况：

若 $y = 1$ ，则 $\theta^{T}x≥1$ ，即 $y = 1$ 的样本点在超平面 $H_1:\theta^{T}x≥1$ 上。

若 $y = 0$ ，则 $\theta^{T}x≤-1$ ，即 $y = 0$ 的样本点在超平面 $H_2:\theta^{T}x≤-1$ 上。

如下图所示，在 $H_1、H_2$ 上的点就是支持向量：

在这里插入图片描述

这里两个超平面 $H_1、H_2$ 平行，它们中间没有样本点。 $H_1、H_2$ 之间的距离成为间隔（margin）。

间隔依赖于分离超平面的法向量 $\theta$ ，等于 $\frac{2}{||\theta||}$ 。 $H_1、H_2$ 是间隔边界。

核函数（kernel）

简单介绍

如下图，我们需要得到一个非线性的决策边界：

在这里插入图片描述

按我们之前学的方法，可以通过增加项数来进行拟合，如下：

在这里插入图片描述

现在我们用一些新的符号 $f_1,f_2,f_3...$ 来表示新的特征值：

$\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3+\theta_4f_4+\theta_5f_5+...≥0$

$f_1=x_1,f_2=x_2,f_3=x_1x_2,f_4=x_1^2...$

现在我们用 $f_1,f_2,f_3$ 来举例：

如图，我们在图上选择三个标记 $l^{(1)},l^{(2)}，l^{(3)}$

在这里插入图片描述

然后来定义新的特征：

给定一个实例x，然后将 $f_1$ 定义为度量实例 $x$ 与标记点 $l^{(1)}$ 的相似度

$f_1=similarity(x,l^{(1)})=exp(-\frac{ {||x-l^{(1)}||}^2}{2\sigma^2})$

类似地，

$f_2=similarity(x,l^{(2)})=exp(-\frac{ {||x-l^{(2)}||}^2}{2\sigma^2})$

$f_3=similarity(x,l^{(3)})=exp(-\frac{ {||x-l^{(3)}||}^2}{2\sigma^2})$

这种函数我们称为高斯核函数，后面我们还会学到其他的核函数。

下面来看看这些核函数的表达式有什么含义。

假设现在有一点非常接近与标记点 $l^{(1)}$ ，那么欧氏距离 ${||x-l^{(1)}||}^2$ 就会接近于0，此时 $f_1≈exp(0)=1$ 。

相反，如果这点离 $l^{(1)}$ 很远，欧式距离 ${||x-l^{(1)}||}^2$ 会变得很大，此时 $f_1≈0$ 。

讲完了特征值的定义，接下来我们看看核函数是如何应用于决策边界的。

给定一个训练样本，当 $\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3≥0$ 时，预测 $y = 1$ 。

假设我们已经得到了参数 $\theta$ 的值：

$\theta_0=-0.5,\theta_1=1,\theta_2=1,\theta_3=0$

现在我们有一个实例 $x$ （蓝点），落在如图所示位置，显然，该实例与标记点 $l^{(1)}$ 间距离很近，故 $f_1=1$ ，与标记点 $l^{(2)}，l^{(3)}$ 相距较远，故 $f_2,f_3=0$ ，然后我们代入 $\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3$ 得 $\theta_0+\theta_1=0.5＞0$ ，所以预测 $y = 1$ 。

在这里插入图片描述

若一个实例如绿点所示，与 $l^{(1)},l^{(2)},l^{(3)}$ 的距离都很远，此时 $f_1,f_2,f_3=0$

代入 $\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3$ 得 $\theta_0=-0.5＜0$ ，所以预测 $y = 0$ 。

在这里插入图片描述

如此，便会得到一个可以区分正负样本的非线性的决策边界。

那么现在大家可能会想如何去得到我们的标记点 $l^{(1)},l^{(2)},l^{(3)}$ ，并且在一些复杂的分类问题中，也许我们需要更多的标记点。

一般情况下，我们会直接选择训练样本作为标记点。

如下给定 $m$ 个训练样本，然后选定与 $m$ 个训练样本完全一样的位置作为标记点。

在这里插入图片描述

转化为向量：

$f=\left[ \begin{matrix} f_0 \\ f_1 \\ f_2 \\ f_3\\... \end{matrix} \right]∈R^{m+1}$

则当 $\theta^Tf≥0$ 时，预测 $y = 1$ .

最小化函数

在这里插入图片描述

参数选择

首先我们看看参数 $C$ ，前面我们知道 $C$ 和 $\frac{1}{\lambda}$ 作用一样，如果选择了较大的 $C$ ,则意味着选择了较大的 $\lambda$ ，则是一个高偏差，低方差的模型（欠拟合）。

如果选择了较小的 $C$ ，则意味着选择了较小的 $\lambda$ ，则是一个高方差，低偏差的模型（过拟合）。
还有一个参数 $\sigma^2$ ，如果 $\sigma^2$ 比较大，则高斯核函数 $exp(-\frac{ {||x-l^{(i)}||}^2}{2\sigma^2})$ 相对平滑，模型高偏差低方差。反之则相对陡峭，模型低偏差高方差。

在这里插入图片描述

例题

在本次代码练习中，我们先从基础的线性分类出发，再到非线性分类来熟悉SVM的工作原理，最后再构建区分垃圾邮件的分类器。

import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
import scipy.io as sio

线性SVM

df = sio.loadmat('E:\\happy\\ML&DL\\My_exercise\\ex5-SVM\\data\\ex6data1.mat')
data = pd.DataFrame(df['X'], columns=['X1', 'X2'])
data['y'] = df['y']
data.head()

在这里插入图片描述

fig = plt.subplots(figsize=(8,6))
plt.scatter(data['X1'], data['X2'], s=50, c=data['y'], cmap='Spectral')
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()

在这里插入图片描述

from sklearn import svm

C=1

#C=1
svc_1 = svm.LinearSVC(C=1, loss='hinge', max_iter=10000)
svc_1.fit(data[['X1', 'X2']], data['y'])
svc_1.score(data[['X1', 'X2']], data['y'])

0.9803921568627451

#C=1时，画图看看每个类别预测的置信度
data['SVM1 Confidence'] = svc_1.decision_function(data[['X1', 'X2']])
data.head()

在这里插入图片描述

fig = plt.subplots(figsize=(8,6))
plt.scatter(data['X1'], data['X2'], s=50, c=data['SVM1 Confidence'], cmap='RdBu')
plt.title('SVM (C=1) Decision Confidence')
plt.show()

在这里插入图片描述

C=100

#C=100时，画图看看每个类别预测的置信度
data['SVM100 Confidence'] = svc_100.decision_function(data[['X1', 'X2']])
fig = plt.subplots(figsize=(8,6))
plt.scatter(data['X1'], data['X2'], s=50, c=data['SVM100 Confidence'], cmap='RdBu')
plt.title('SVM (C=100) Decision Confidence')
plt.show()

在这里插入图片描述

非线性SVM

#高斯核函数
def gaussian_kernel(x1, x2, sigma):
    return np.exp(-np.power(x1 - x2, 2).sum() / (2 * (sigma ** 2)))

#测试一下
x1 = np.array([1, 2, 3])
x2 = np.array([2, 0, 1])
sigma = 2
gaussian_kernel(x1, x2, sigma)

0.32465246735834974

df = sio.loadmat('E:\\happy\\ML&DL\\My_exercise\\ex5-SVM\\data\\ex6data2.mat')
data = pd.DataFrame(df['X'], columns=['X1', 'X2'])
data['y'] = df['y']
data

fig = plt.subplots(figsize=(8,6))
plt.scatter(data['X1'], data['X2'], s=30, c=data['y'], cmap='Spectral')
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()

在这里插入图片描述

#用内置的高斯核函数求解
svc = svm.SVC(C=100, gamma=10, probability=True)

svc.fit(data[['X1', 'X2']], data['y'])
svc.score(data[['X1', 'X2']], data['y'])

0.9698725376593279

#选一类按照概率画出来
prob = svc.predict_proba(data[['X1', 'X2']])[:, 0]

fig = plt.subplots(figsize=(8,6))
plt.scatter(data['X1'], data['X2'], s=30, c=prob, cmap='Reds')

在这里插入图片描述

网络搜索寻找最优参数

#读取训练集和验证集
df = sio.loadmat('E:\\happy\\ML&DL\\My_exercise\\ex5-SVM\\data\\ex6data3.mat')
df.keys()

在这里插入图片描述

gamma = $\frac{1}{2\sigma^2}$

X = df['X']
Xval = df['Xval']
y = df['y']
yval = df['yval']

candidate = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]
gamma_values = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]

best_score = 0
best_params = {
    
    'C': None, 'gamma': None}

for C in candidate:
    for gamma in gamma_values:
        svc = svm.SVC(C=C, gamma=gamma)
        svc.fit(X, y)
        score = svc.score(Xval, yval)
        
        if score > best_score:
            best_score = score
            best_params['C'] = C
            best_params['gamma'] = gamma

best_score, best_params

(0.965, {'C': 0.3, 'gamma': 100})

实现垃圾邮件过滤器

train = sio.loadmat('E:\\happy\\ML&DL\\My_exercise\\ex5-SVM\\data\\spamTrain.mat')
test = sio.loadmat('E:\\happy\\ML&DL\\My_exercise\\ex5-SVM\\data\\spamTest.mat')
train.keys(),test.keys()

在这里插入图片描述

#X是一个二进制向量，1表示邮件中存在该单词，0表示不存在
X = train['X']
y = train['y'].ravel()
Xtest = test['Xtest']
ytest = test['ytest'].ravel()

svc = svm.SVC()
svc.fit(X, y)
svc.score(Xtest, ytest)

0.987

例题数据和jupyter获取

关注公众号“大拨鼠Code”，回复“机器学习”可领取上面例题的源文件，jupyter版本的，例题和数据也一起打包了，之前的练习也在里面，感谢支持。

参考资料：

[1] https://www.bilibili.com/video/BV164411b7dx

[2] https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes