线性支持向量机与软间隔最大化

接着线性可分支持向量机。

如果数据集不是线性可分的，（比如二维空间中，就是找不到一条直线能刚好把正负例分开，）忽略掉一些异常点，就可以用一个分离超平面把正负例给分开。因此也就不是硬间隔了，而是软间隔。

引入了一个松弛变量，使得函数间隔加上松弛变量大于等于1.而线性可分支持向量机中的硬间隔，指的是函数间隔大于等于1

当样本点正确分类的时候，几何间隔指的是样本点到分离超平面的距离

松弛变量：

为啥函数间隔是1？上一篇我竟然没有发现？？？果然没看懂。

因为w和b都是成比例变化的，所以平面并没有变，只是将函数间隔设置为1，有啥用？

引入松弛变量之后，约束条件就变为：

第一个式子的约束条件指的是最小的几何间隔求最大，而第二个式子是在约束条件左右乘了w的范数。然后设置函数间隔的最小值为1.

因此约束条件就变成了

而本文中加了松弛变量，约束条件的变化也就可以理解了。

凸二次规划原始问题：

松弛变量大于等于0，是说，如果不加松弛变量，那么函数间隔一定是小于等于1的，这代表什么？代表着不加松弛变量，没办法用上篇硬间隔最大化来解决，因为不满足原始问题的约束条件。

另外除了使得w范数最小化，还需要使误分类的点数最少，也就是多加的一项损失函数。

对偶问题：

推导过程：

也是先建一个拉格朗日函数：

然后先求对wb 和松弛变量的极小，再去求对alpha的极大。还有松弛变量的系数咋不管了？感觉问出了一个菜鸟问题。

这样可以得到对偶问题。

接下来就是求出alpha之后，如何求解w和b.

这里有涉及到KKT条件，需要好好看一下。

关于可以求出好多个b，这里也没懂。

支持向量

能够影响分离超平面的生成的才叫做支持向量

损失函数：

令第一项等于松弛变量，那么根据合页函数定义，可以知道，松弛变量是大于等于零的。

当函数间隔小于等于1时，松弛变量就等于1-yi(w*xi+b),也就是有损失。

当函数间隔大于1时，松弛变量等于0，也就是没损失。

因此，只有被正确分类并且确信度足够高，才会无损失。