吴恩达机器学习笔记（十二）

第十三章支持向量机（SVM）

优化目标

支持向量机在学习复杂的非线性方程时能够提供一种更为清晰个更加强大的方式。

先回顾一下逻辑回归的相关概念，看如何进行改动可以得到支持向量机。逻辑回归的假设函数为，对应的图像如下：

如果有样本y=1，希望能尽可能接近1，意味着远大于0；

如果有样本y=0，希望能尽可能接近0，意味着远小于0。

逻辑回归中的代价函数为：

针对某一项的cost为：

可以看到下图中SVM中对代价函数的改变：

这里的log函数部分改变成了红色线所代表的cost函数。

相应的代价函数变成了：

于是得到支持向量机的总体优化目标，最小化下面的函数，就得到了SVM学习得到的参数，在SVM中，我们常常用C代替λ。

与逻辑回归不同的是，支持向量机并不会输出概率，相对的得到的是通过这个优化这个代价函数得到一个参数θ，支持向量机所做的是他直接进行一个预测，预测y是等于1还是等于0。

学习得到参数值θ后，这就是支持向量机的假设函数的形式。

直观上对大间距的理解

有时候会把支持向量机叫做大间距分类器，本节中将会介绍这是什么意思，并给出直观的图像便于理解SVM假设。

和逻辑回归相比较，在支持向量机中：

如果有样本y=1，希望大于等于1，而不仅仅是大于等于0；

如果有样本y=0，希望小于等于-1，而不仅仅是小于等于0。

当C非常大时，我们希望跟在后面的累加部门为0，这样即可以得到：。

归结起来这是一个条件极值问题。

对于下面的这个例子，有不止一条直线可以把正负样本划分开，但是相比来说，黑色的分界线要好很多，它是更稳健的决策边界。

从数学来说，这条黑色的决策边界拥有更大的距离，叫做边距，这个边距也叫做支持向量机的间距，这会使支持向量机具有鲁棒性。因此，支持向量机有时被称为大间距分类器。

从这张图中能够更直观的观察出支持向量机户选择什么样的模型。

对于下面大间距分类器，它是在常数C被设的非常大的情况下得出的：

当有图中的异常点出现的时候，在常数C比较大的情况下，决策边界会从黑线变成红线，但如果常数C比较小，最后得到的还是黑线。

所以，在本节的学习中，通过这些图像可以更直观地理解支持向量机是如何作为大间距分类器工作的。

大间距分类器的数学原理

这一节将从数学的角度来看一下SVM。

下面是上一节中给出的支持向量机模型中的优化目标函数，。

通过简化问题，我们知道要求的最小值就是||θ||的最小值，即θ的范数最小值，通过两个向量相乘的几何含义如下：

通过上述计算可知，如果要求得||θ||的最小值，则要尽量的大。

左边的图中：因为这里的很小，要使，只能够让||θ||很大；同样，这里的也很小，要使，只能够让||θ||很大，所以这不能够求||θ||的最小值。

右边的图中：因为这里的很大，要使，就可以让||θ||变得小了；同样，这里的也很大，要使，也可以让||θ||变得小了。

因此，通过选择的是右边图中的决策边界而不是左边的那个，支持向量机可以使参数θ的范数变小很多，意味着也变小很多，就可以达到最小化的目标。（）

这就是支持向量机产生大间距的分类现象，这样我们就从直观上感受了SVM作为大间距分类器的效果。

核函数

这一节中将改造支持向量机来构造复杂的非线性分类器，下面将介绍核函数是什么以及如何使用它。

之前的课程中有讲解用多项式解决非线性拟合问题：

在这里我们通过引入核函数来解决这个问题。

假设函数：

手动的取3个点，把这些点叫做标记：

给定x，根据与标记的距离计算新的特征：

上述公式中的相似度函数（similarity）用数学术语来说就是一个核函数，这里的核函数实际上是高斯核函数，即exp。

是高斯核函数的参数，通过下面的图我们可以看出对函数图形的改变。

以上讲述的内容能够帮助很好的理解核函数以及如何使用它在支持向量机中定义新的特征变量。

下面将介绍如何在实际应用中应用核函数的思想，例如：如何处理支持向量机中的偏差方差的平衡。

上面介绍了选择标记点的过程，使我们能够定义相似度函数，也就是核函数，那么关于标记点，在实际问题中，我们应该怎么选取呢？

给定m个训练样本，将选取与m个样本完全一样的位置作为标记点。

这样，对于每一个训练集中的数据，我们都有一个m+1维向量与之对应。

那么，上图中的向量就用于描述训练样本的特征向量。所以在给定核函数和相似度函数后，这就是我们如何使用简单的支持向量机。

给定x的值，并对样本x做出预测，先要计算特征向量f，f是m+1维特征向量，这里之所以有m是因为有m个训练样本，于是就有m个标记点。

大于等0时，预测y=1，，所以参数向量为m+1维，以上就是当已知参数时，怎么做出预测的过程。

是否可以将核函数这个想法应用到其他算法上，比如逻辑回归。事实证明，如果愿意，的确可以将核函数这个想法用于定义特征向量，将标记点之类的技术用于逻辑回归算法，但是用于支持向量机的计算技巧，却不能较好的推广到其他算法诸如逻辑回归中，所以，将核函数用于逻辑回归时，将变得非常的慢，相比之下，支持向量机和核函数可以相得益彰。

另一个值得注意的问题是，当使用支持向量机时，怎么选择支持向量机中的参数？

首先选择的是优化目标中的参数C，C的作用和逻辑回归算法中的λ相似：

如果使用较大的参数C，则对应着逻辑回归中较小的λ时的情况，意味着不使用正则化，就有可能得到一个低偏差但高方差的模型，更倾向于过拟合；

如果使用较小的参数C，则对应着逻辑回归中较大的λ时的情况，意味着不使用正则化，就有可能得到一个高偏差但低方差的模型，更倾向于欠拟合。

另一个要选择的参数是高斯核函数中的：