线性支持向量机与软间隔最大化

接着线性可分支持向量机。

如果数据集不是线性可分的,(比如二维空间中,就是找不到一条直线能刚好把正负例分开,)忽略掉一些异常点,就可以用一个分离超平面把正负例给分开。因此也就不是硬间隔了,而是软间隔。

引入了一个松弛变量,使得函数间隔加上松弛变量大于等于1.而线性可分支持向量机中的硬间隔,指的是函数间隔大于等于1

当样本点正确分类的时候,几何间隔指的是样本点到分离超平面的距离


松弛变量:

为啥函数间隔是1?上一篇我竟然没有发现???果然没看懂。


因为w和b都是成比例变化的,所以平面并没有变,只是将函数间隔设置为1,有啥用?

引入松弛变量之后,约束条件就变为:


第一个式子的约束条件指的是最小的几何间隔求最大,而第二个式子是在约束条件左右乘了w的范数。然后设置函数间隔的最小值为1.

因此约束条件就变成了


而本文中加了松弛变量,约束条件的变化也就可以理解了。

凸二次规划原始问题:


松弛变量大于等于0,是说,如果不加松弛变量,那么函数间隔一定是小于等于1的,这代表什么?代表着不加松弛变量,没办法用上篇硬间隔最大化来解决,因为不满足原始问题的约束条件。

另外除了使得w范数最小化,还需要使误分类的点数最少,也就是多加的一项损失函数。

对偶问题:


推导过程:

也是先建一个拉格朗日函数:

然后先求对wb 和松弛变量的极小,再去求对alpha的极大。还有松弛变量的系数咋不管了?感觉问出了一个菜鸟问题。




这样可以得到对偶问题。

接下来就是求出alpha之后,如何求解w和b.

这里有涉及到KKT条件,需要好好看一下。

关于可以求出好多个b,这里也没懂。

支持向量

能够影响分离超平面的生成的才叫做支持向量


损失函数:


令第一项等于松弛变量,那么根据合页函数定义,可以知道,松弛变量是大于等于零的。

当函数间隔小于等于1时,松弛变量就等于1-yi(w*xi+b),也就是有损失。

当函数间隔大于1时,松弛变量等于0,也就是没损失。

因此,只有被正确分类并且确信度足够高,才会无损失。

猜你喜欢

转载自blog.csdn.net/zhangdamengcsdn/article/details/80322174
今日推荐