Support Vector Machines 支持向量机

Large Margin Classification大间距分类器

Optimization Objective优化目标

到目前为止你已经见过一系列不同的学习算法在监督学习中许多学习算法的性能都非常类似因此重要的不是你该选择使用学习算法A还是学习算法B 而更重要的是应用这些算法时所创建的大量数据在应用这些算法时表现情况通常依赖于你的水平比如你为学习算法所设计的特征量的选择以及如何选择正则化参数诸如此类的事还有一个更加强大的算法广泛的应用于工业界和学术界它被称为支持向量机(Support Vector Machine) 简称SVM

在逻辑回归中如果有一个 y=1 的样本我们希望 h(x) 趋近1 这就意味着当 h(x) 趋近于1时 θ 转置乘以 x 应当远大于0 此时逻辑回归的输出将趋近于1

逻辑回归的代价函数中每个样本 (x, y) 都会为总代价函数增加这里的一项

现在开始建立支持向量机将原曲线用紫红色曲线替代我们将使用的新的代价函数左边的函数为 cost1(z) 右边为 cost0(z) 这里的下标是指在代价函数中对应的 y=1 和 y=0 的情况

拥有了这些定义后现在我们就开始构建支持向量机这是我们在逻辑回归中使用代价函数 J(θ)

对于逻辑回归 在目标函数中我们不是优化这里的 A+λ×B 我们所做的是通过设置不同正则参数 λ 达到优化目的这样我们就能够权衡对应的项是使得训练样本拟合的更好即最小化 A 还是保证正则参数足够小也即是对于B项而言

但对于支持向量机 我们依照惯例使用一个不同的参数称为C(类似于1/λ的作用) 同时改为优化目标 C×A+B 因此在逻辑回归中如果给定 λ 一个非常大的值意味着给予B更大的权重而这里就对应于将C 设定为非常小的值那么相应的将会给 B 比给 A 更大的权重因此这只是一种不同的方式来控制这种权衡或者一种不同的方法即用参数来决定是更关心第一项的优化还是更关心第二项的优化

这个目标函数得到 SVM 学习到的参数C 最后有别于逻辑回归输出的概率 当最小化代价函数获得参数θ时支持向量机所做的是它来直接预测 y的值等于1 还是等于0 (逻辑回归需要自己手动判断θ^T*x > 0.5时，预测为1...) 因此这个假设函数会预测1 当 θ^T*x 大于或者等于0时或者等于0时所以学习参数 θ 就是支持向量机假设函数的形式那么这就是支持向量机数学上的定义

扫描二维码关注公众号，回复： 3103583 查看本文章

Large Margin Intuition大间距分类器

人们有时将支持向量机看做是大间距分类器这一部分将介绍其中的含义这有助于我们直观理解 SVM模型的假设是什么样的这是我的支持向量机模型的代价函数

如果你有一个正样本 y等于1 则其实我们仅仅要求 θ 转置乘以 x 大于等于0 就能将该样本恰当分出这是因为如果 θ 转置乘以 x 比0大的话我们的模型代价函数值为0 类似地如果你有一个负样本则仅需要 θ 转置乘以x 小于等于0 就会将负例正确分离但是 支持向量机的要求更高 不仅仅要能正确分开输入的样本即不仅仅要求 θ 转置乘以 x 大于0 我们需要的是比0值大很多比如大于等于1 我也想这个比0小很多比如我希望它小于等于-1 这就相当于在支持向量机中嵌入了一个额外的安全因子或者说安全的间距因子当然逻辑回归做了类似的事情但是让我们看一下在支持向量机中这个因子会导致什么结果

具体而言我接下来会考虑一个特例我们将这个常数 C 设置成一个非常大的值比如我们假设 C的值为100000 或者其它非常大的数然后来观察支持向量机会给出什么结果

如果 C 非常大 则最小化代价函数的时候我们将会很希望找到一个 使第一项为0的 最优解因此输入一个训练样本标签为 y=1 你想令第一项为0 你需要做的是找到一个 θ 使得 θ 转置乘以 x 大于等于1 类似地对于一个训练样本标签为 y=0 为了使 cost0(z) 值为0 我们需要 θ 转置乘以x 的值小于等于-1 因为我们将选择参数使第一项为0 我们的优化问题变成如图右下角所示这样求解这个优化问题的时候当你最小化这个关于变量 θ 的函数的时候你会得到一个非常有趣的决策边界

具体而言如果你考察这样一个线性可分的数据集红色和绿色的角色边界很明显不是好的选择，支持向量机将会选择这个黑色的决策边界看起来这是更稳健更好的决策界它有更大的距离这个距离叫做间距 (margin) 而这是支持向量机具有鲁棒性的原因因为它努力用一个最大间距来分离样本因此支持向量机有时被称为 大间距分类器 而这其实是求解上一页幻灯片上优化问题的结果

记得这个例子的前提时正则化因子常数C 设置的非常大事实上支持向量机现在要比这个大间距分类器所体现的更成熟

如图这样一个样本集左下角有个异常值当正则化参数 C 设置的非常大的时候，支持向量机最终会得到那条粉色的线仅仅基于一个异常值就将我的决策界从这条黑线变到这条粉线这实在是不明智的

但是如果 C 设置的小一点则你最终会得到这条黑线也就是说C取值合适时，支持向量机是可以忽略掉一些异常点的影响得到更好的决策界因此 大间距分类器的描述真的仅仅是从直观上给出了正则化参数 C 非常大的情形

Mathematics Behind Large Margin Classification大间隔分类背后的数学原理

首先复习一下关于向量内积的知识 u 转置乘以 v 的结果向量 u 和 v 之间的内积

u.*v = ||u||*||v||*cosθ = p*||u|| (其中p = ||v||*cosθ，也就是v在u上的投影，它是有正负的，由夹脚θ决定)

这就是关于向量内积的知识我们接下来将会使用这些关于向量内积的性质试图来理解支持向量机中的目标函数这就是我们先前给出的支持向量机模型中的目标函数（当C非常大的时候）为了讲解方便忽略掉截距令 θ0 等于 0 特征数 n 置为2

现在我们来看一下目标函数支持向量机的优化目标函数当我们仅有两个特征即 n=2 时这个式子可以写作二分之一 θ1 平方加上 θ2 平方我们只有两个参数 θ1 和θ2 目标函数可以简化成右图所示，抉择边界和θ向量是垂直的（因为抉择边界θ1*x1+θ2*x2=0的斜率-θ1/θ2，向量θ=(θ1,θ2)的斜率是θ2/θ1）

先看右图左边的决策边界，我们分析支持向量机为什么不会选它而选择右边的这个有最大间隔的决策边界

jun：因为支持向量机做的全部事情就是极小化参数向量 θ 范数的平方，在p*||θ||>=1 if y=1且p*||θ||<=-1 if y=0时，先考虑y=1的情况使得θ 范数最小，即||θ||最小，而p*||θ||>=1，则p要尽可能的大才行，p 是 x 在 θ上的投影，那么就是要这个投影越大越好，前面说过θ和决策边界是垂直的，那么x 在 θ上的投影也就是x到决策边界的垂直距离，最后问题就简化到要x到决策边界的垂直距离越大越好了也就是支持向量机会选择最大间隔的那个决策边界 y=0的情况同上分析

Kernels核函数

Kernels I核函数

我们对支持向量机算法做一些改变以构造复杂的非线性分类器我们用"kernels(核函数)"来达到此目的

我们来看看核函数是什么以及如何使用如果你有一个训练集像这个样子然后你希望拟合一个非线性的判别边界来区别正负样本一种办法是构造多项式特征变量如果θ0加上θ1*x1 加上其他的多项式特征变量之和大于0 那么就预测为1 反之则预测为0

这种方法的另一种写法 θ0+θ1×f1+ θ2×f2+θ3×f3 那么 f1就等于x1 f2就等于x2 f3等于这个 x1x2 f4等于x1的平方 f5等于x2的平方等等我们之前看到通过加入这些高阶项我们可以得到更多特征变量

问题是 如何构造这些高阶项来最好的拟合我们的数据

这里有一个可以构造新特征f1 f2 f3的想法手动选取一些点分别定义为第一个标记l(1) 第二个标记l(2) 第三个标记l(3) 将第n个特征变量fn 定义为一种相似度的度量度量样本 x 与第n个标记的相似度度量相似度的公式如上图这个相似度函数就是核函数这里用的是高斯核函数假设x与其中一个标记点l(n)非常接近 fn就越接近于1 相反地 fn就接近于0

σ平方是高斯核函数的参数当你改变它的值的时你会得到略微不同的结果 σ平方越小突起的宽度越窄等值线图也收缩了一些特征变量的值减小的速度会变得比较快

假设我们已经找到了一个学习算法并且假设我已经得到了这些参数的值因此如果θ0等于-0.5 θ1等于1 θ2等于1 θ3等于0 如图所示假设我们有一个训练样本x 接近于l(1) 那么f1 就接近于1 又因为训练样本x 离l(2) l(3) 都很远所以 f2就接近于0 f3也接近于0 另一个不同的点 x 如果进行和之前相同的计算你发现f1 f2 f3都接近于0 因此通过计算我们预测的y值是0 然后对大量的点进行这样相应的处理我们最后会得到这个预测函数的判别边界这个红色的判别边界里面预测的y值等于1 在这外面预测的y值等于0

这就是核函数这部分的概念以及我们如何在支持向量机中使用它们我们通过标记点和相似性函数来定义新的特征变量从而训练复杂的非线性分类器

Kernels II核函数

上一节遗留问题我们如何得到这些标记点？

我们直接将训练样本作为标记点整个过程的大纲如下

两个细节是 n=m 特征个数等于样本数优化函数的第二项 θj从1到m的平方和可以被重写为 θ的转置乘以θ 记得先忽略θ0

大多数支持向量机在实现的时候其实是替换掉 θ 的转置乘以 θ 用 θ 的转置乘以某个矩阵这依赖于你采用的核函数再乘以 θ 这其实是另一种略有区别的距离度量方法我们用一种略有变化的度量来取代不直接用 θ 的模的平方进行最小化而是最小化了另一种类似的度量这是参数向量θ的变尺度形式这种变化和核函数相关这个数学细节使得支持向量机能够更有效率的运行

支持向量机做这种修改的理由是这么做可以适应超大的训练集例如当你的训练集有10000个样本时

顺便说一下你可能会想为什么我们不将核函数这个想法应用到其他算法比如逻辑回归上事实证明如果愿意的话确实可以将核函数这个想法用于定义特征向量将标记点之类的技术用于逻辑回归算法但是用于支持向量机的计算技巧不能较好的推广到其他算法诸如逻辑回归上所以将核函数用于逻辑回归时会变得非常的慢 相比之下这些计算技巧比如具体化技术对这些细节的修改以及支持向量软件的实现细节使得支持向量机可以和核函数相得益彰而逻辑回归和核函数则运行得十分缓慢更何况它们还不能使用那些高级优化技巧因为这些技巧是人们专门为使用核函数的支持向量机开发的

在使用支持向量机时的偏差-方差折中在使用支持向量机时其中一个要选择的事情是目标函数中的参数C 大的C对应着逻辑回归问题中的小的λ 这意味着不使用正则化如果你这么做就有可能得到一个低偏差但高方差更倾向于过拟合 的模型如果你使用了较小的C 这对应着在逻辑回归问题中使用较大的 λ 对应着一个高偏差但是低方差更倾向于欠拟合的模型另外一个要选择的参数是高斯核函数中的σ^2 当高斯核函数中的 σ^2偏大时 那么高斯核函数倾向于变得相对平滑 这会给你的模型带来较高的偏差和较低的方差 反之如果σ^2很小 高斯核函数即相似度函数会变化的很剧烈 最终得到的模型会是低偏差和高方差

SVMs in Practice练习SVMs

Using An SVM使用SVM

对于应用支持向量机我们需要做的首先是要选择参数C 其次选择核函数

其中一个选择是我们选择不用任何核函数不用核函数这个作法也叫线性核函数这种用法的 SVM 只使用了 θ 转置乘以x 当 θ0 + θ1x1 + ... + θnxn 大于等于0时预测 y=1 对线性核函数这个术语你可以把它理解为这个版本的 SVM 它只是给你一个标准的线性分类器 (什么时候不用核函数？)因此对某些问题来说它是一个合理的选择而且你知道有许多软件库比如 liblinear 就是众多软件库中的一个例子它们可以用来训练的 SVM 是没有核函数的那么你为什么想要做这样一件事儿呢？如果你有大量的特征变量如果 n 很大而训练集的样本数 m 很小那么你知道你有大量的特征变量 x 是一个 n+1 维向量 x 是一个 n+1 维向量那么如果你已经有大量的特征值和很小的训练数据集也许你应该拟合一个线性的判定边界不要拟合非常复杂的非线性函数因为没有足够的数据如果你想在一个高维特征空间试着拟合非常复杂的函数而你的训练集又很小的话你可能会过度拟合因此这应该是你可能决定不适用核函数或者等价地说使用线性核函数的一个合理情况

当你选择高斯核函数为核函数时你要做的另外一个选择是选择一个参数σ的平方

那么什么时候选择高斯核函数呢？如果你原来的特征变量 x 是 n 维的如果 n 很小并且理想情况下如果 m 很大

那么如果我们有一个二维的训练集就像我前面讲到的例子一样那么n等于2 但是我们有相当大的训练集我已经画出了大量的训练样本那么可能你需要用一个核函数去拟合一个更复杂的非线性判定边界那么高斯核函数会是不错的选择

如果你用 Octave 或者 Matlab 来实现支持向量机的话它会要求你提供一个函数来计算核函数的特定特征它将自动地生成所有特征变量它自动地用你写的这个函数将 x 映射到对应的 f1 f2 一直到 fm 生成所有的特征值并从这儿开始训练支持向量机但是有些时候你却一定要自己提供这个函数如果你使用高斯核函数一些SVM的实现也会包括高斯核函数和一些其他的核函数因为高斯核函数可能是最常见的核函数

如果你有大小很不一样的特征变量 在使用高斯核函数之前对它们进行归一化是很重要的

现在如果你的特征变量取值范围很不一样就拿房价预测来举例如果你的数据是一些关于房子的数据如果 x1 的取值在上千平方英尺的范围内但是 x2 是卧室的数量且如果它在一到五个卧室范围内

那么 x1-l1 将会很大这有可能上千数值的平方然而 x2-l2 将会变得很小在这样的情况下的话那么在这个式子中这些间距将几乎都是由房子的大小来决定的从而忽略了卧室的数量为了避免这种情况让向量机得以很好地工作确实需要对特征变量进行归一化这将会保证SVM 能够同等地关注到所有不同的特征变量而不是像例子中那样只关注到房子的大小而忽略了其他的特征变量

不是所有你可能提出来的相似度函数都是有效的核函数高斯核函数线性核函数以及其他人有时会用到的另外的核函数它们全部需要满足一个技术条件它叫作默塞尔定理 (Mercer's Theorem) 需要满足这个条件的原因是因为支持向量机算法或者 SVM 的实现有许多巧妙的数值优化技巧为了有效地求解参数 θ 在最初的设想里有一个这样的决定将我们的注意力仅仅限制在可以满足默塞尔定理的核函数上这个定理所做的是确保所有的SVM包所有的SVM软件包能够使用大量的优化方法并且快速地得到参数 θ

一些其他的核函数：多项式核函数字符串核函数卡方核函数直方图交叉核函数等等

讨论最后两个细节一个是在多类分类中你有4个类别或者更一般地说是 K 个类别怎样让 SVM 输出各个类别间合适的判定边界？大部分 SVM 许多 SVM 包已经内置了多类分类的函数了因此如果你用的是那种软件包你可以直接用内置函数你可以直接用内置函数应该可以工作得很好不然的话另一个方式是一对多 (one-vs.-all) 方法这个我们在讲解逻辑回归的时候讨论过所以你要做的是要训练 K 个 SVM 如果你有 K 个类别的话每一个 SVM 把一个类同其他类区分开这会给你 K 个参数向量它们是 θ(1) 它把 y=1 这类 θ(1) 它把 y=1 这类和所有其他类别区分开和所有其他类别区分开然后得到第二个参数向量 θ(2) 然后得到第二个参数向量 θ(2) 它是在 y=2 为正类它是在 y=2 为正类其他类为负类时得到的以此类推一直到参数向量θ(K) 是用于区分最后一个类别类别 K 和其他类别的参数向量那么我们什么时候用哪一个呢？

如果特征变量的数量 n 相对于你的训练集大小来说较大时通常会使用逻辑回归或者使用没有核函数的 SVM 或者叫线性核函数

如果 n 较小而 m 是中等大小我的意思是 n 可以取 1 - 1000之间的任何数如果训练样本的数量可能是从 10 也许是到10,000个样本之间的任何一个值也许多达5万个样本那么通常高斯核函数的SVM会工作得很好

第三种值得关注的情况是如果 n 很小但是 m 很大那么高斯核函数的支持向量机运行起来就会很慢如今的 SVM 包如果使用高斯核函数的话会很慢如果你有5万那还可以但是如果你有一百万个训练样本或者是十万个 m 的值很大如今的 SVM 包很好但是如果你对一个很大很大的训练集使用高斯核函数的话它们还是会有些慢在这种情况下我经常会做的是尝试手动地创建更多的特征变量然后使用逻辑回归或者不带核函数的 SVM

你看这张幻灯片你看到了逻辑回归或者不带核函数的 SVM 在这个两个地方都出现了我把它们放在一起是有原因的 逻辑回归和不带核函数的 SVM 它们都是非常相似的算法 它们会做相似的事情并且表现也相似但是根据你实现的具体情况其中一个可能会比另一个更加有效但是如果其中一个算法适用的话那么另一个算法也很有可能工作得很好但是 SVM 的威力随着你用不同的核函数学习复杂的非线性函数而发挥出来

最后神经网络应该在什么时候使用呢？对于所有的这些问题对于所有这些区间一个设计得很好的神经网络也很可能会非常有效

它的一个缺点是或者说有时可能不会使用神经网络的原因是对于许多这样的问题 神经网络训练起来可能会很慢 但是如果你有一个非常好的 SVM实现包它会运行得比较快比神经网络快很多尽管我们在此之前没有证明过 实际上 SVM 的优化问题是一种凸优化问题 因此好的 SVM 优化软件包总是会找到全局最小值或者接近它的值

在实际应用中局部最优对神经网络来说不是非常大但是也不小根据你的问题神经网络可能会比 SVM 慢

算法确实很重要但是通常更重要的是你有多少数据你有多熟练是否擅长做误差分析和调试学习算法想出如何设计新的特征变量以及找出应该输入给学习算法的其它特征变量等方面通常这些方面会比你使用逻辑回归还是 SVM 这方面更加重要但是已经说过了 SVM 仍然被广泛认为是最强大的学习算法之一而且 SVM 在一个区间内是一个非常有效地学习复杂非线性函数的方法因此我实际上 逻辑回归神经网络 SVM 加在一起有了这三个学习算法我想你已经具备了在广泛的应用里构建最前沿的机器学习系统的能力它是你的武器库中的另一个非常强大的工具它被广泛地应用在很多地方

参考资料

https://www.coursera.org/learn/machine-learning/

斯坦福大学《Machine Learning》第7周学习笔记