SVM学习总结

1、为啥要大于等于1，为啥是1/||w||，上面的函数间隔为啥可以忽略？

这里做了简化处理，把支持向量到分离超平面的距离简化为1了。相当于做了一个标准化，这就是规定。

因为函数间隔通过调整，通过w 和b的等比例变化，是可以忽略的。你可以把1/||w|| 和 s.t.后面的条件同时放大缩小同样的倍数。

直观的理解就是，法向量定了之后，在硬间隔下，其实，你就可以找到那个超平面了，只要把它移动到最后一个正样本和第一个负样本的正中间直接就可以了，所以，min就求w。s.t约束条件其实就约束了

2、什么是软间隔？里面的松弛变量为啥是1/2*||w|| + ξ，为啥要用加？

这时候的超平面有点像曲面了，或者说曲线。

这个 ξ就是对距离的一个宽恕，一般来说，支持向量在分隔平面上，但是分割平面内有些点，你也想把它纳入进来，就可以把原来的线给掰弯了，这个点到分割平面的距离小于1，于是，最优问题李的s.t.就减一个ξ；同时，同时，原来的1/2*||w||越大表示距离越近，则在其后面又加了个一个补偿，就是ξ。同时，又要有一个权衡，权衡分错和经验风险（ξ就是经验风险），就引入了惩罚因子C。

向量对于的α<C，ξ=0，就是原来的支持向量，因为这时候的距离还是1。同理，α=C，0<ξ<1，分类正确。 α=C，ξ=1，在分离平面上。 α=C，ξ>1，错误分类。

3、为啥求到最后，只要支持向量决定分离超平面？

它的对偶问题，α全都等于0的时候，一定能得到最优解，但是全是0的时候，w b求出来的又全是0了，所以，就得有些α不能是0，这些α对于的向量就是支持向量。

4、核函数

核函数本来与SVM是一个正交的概念，没啥联系。但是SVM那帮人在处理某些问题的时候，搞不定了。

核函数非线性的求解trick，技巧更合适，像高维映射美化了它，其实挺神棍的一个东西。符合mercer条件的方法都可以作为核函数，但是还有其他的核函数。

借助低维内积的概念，cos角度可以通过内积求出来，所以，高维可以内积表示向量的相似度。

通过核函数，可以不用知道在所谓其本来的高维空间中的那个向量是什么，而直接得到它们在高维空间的内积。

猜你喜欢