机器学习技法笔记5：Kernel 逻辑回归

5-1 Soft-Margin SVM as Regularized Model

前面几篇：
机器学习技法笔记1：线性SVM
机器学习技法笔记2： SVM的对偶形式
 机器学习技法笔记3： Kernel SVM
机器学习技法笔记4： Soft Margin SVM
上节课我们主要介绍了Soft-Margin SVM，即如果允许有分类错误的点存在，那么在原来的Hard-Margin SVM中添加新的惩罚因子C，修正原来的公式，得到新的αn值。最终的到的αn有个上界，上界就是C。Soft-Margin SVM权衡了large-margin和error point之前的关系，目的是在尽可能犯更少错误的前提下，得到最大分类边界。
本节课将把Soft-Margin SVM和我们之前介绍的Logistic Regression联系起来，研究如何使用kernel技巧来解决更多的问题。
这里写图片描述

这里提一下，既然unconstrained form SVM与L2 Regularization的形式是一致的，而且L2 Regularization的解法我们之前也介绍过，那么为什么不直接利用这种方法来解决unconstrained form SVM的问题呢？
有两个原因。一个是这种无条件的最优化问题无法通过QP解决，即对偶推导和kernel都无法使用；另一个是这种形式中包含的max()项可能造成函数并不是处处可导，这种情况难以用微分方法解决。
这里写图片描述

5、
通过对比，我们发现L2 Regularization和Soft-Margin SVM的形式是相同的，两个式子分别包含了参数λ和C。Soft-Margin SVM中的large margin 对应着L2
Regularization中的short w，也就是都让hyperplanes更简单一些。我们使用特别的err^来代表可以容忍犯错误的程度，即soft margin。
这里写图片描述

5-2 SVM versus Logistic Regression

这里写图片描述

所以，可以使用err^svm来代替err0/1，解决二元线性分类问题，而且err^svm 是一个凸函数，使它在最佳化问题中有更好的性质。

3、
总结一下，我们已经介绍过几种Binary Classification的Linear Models，包括PLA，Logistic Regression和Soft-Margin SVM。
PLA是相对简单的一个模型，对应的是err0/1，通过不断修正错误的点来获得最佳分类线。它的优点是简单快速，缺点是只对线性可分的情况有用，线性不可分的情况需要用到pocket算法。
Logistic Regression对应的是errsCE，通常使用GD(gradient design)/SGD 算法求解最佳分类线。它的优点是凸函数errsCE便于最优化求解，而且有 regularization作为避免过拟合的保证；缺点是errsCE作为err0/1的上界，当 ys很小（负值）时，上界变得更宽松，不利于最优化求解。
Soft-Margin SVM对应的是err^svm，通常使用QP求解最佳分类线。它的优点和Logistic Regression一样，凸优化问题计算简单而且分类线比较“粗壮”一些；缺点也和Logistic Regression一样，当ys很小（负值）时，上界变得过于宽松。其实，Logistic Regression和Soft-Margin SVM都是在最佳化err0/1的上界而已。
这里写图片描述

5-3 SVM for Soft Binary Classification

1、接下来，我们探讨如何将SVM的结果应用在Soft Binary Classification中，得到是正类的概率值。
第一种简单的方法是先得到SVM的解(bsvm,wsvm)，然后直接代入到logistic regression中，得到g(x)=θ(wTsvmx+bsvm)。这种方法直接使用了SVM和 logistic regression的相似性，一般情况下表现还不错。但是，这种形式过于简单，与logistic regression的关联不大，没有使用到logistic regression中好的性质和方法。
这里写图片描述

第二种简单的方法是同样先得到SVM的解(bsvm,wsvm)，然后把(bsvm,wsvm)作为logistic regression的初始值，再进行迭代训练修正，速度比较快，最后，将得到的b和w代入到g(x)中。这种做法有点显得多此一举，因为并没有比直接使用logistic regression快捷多少。
这里写图片描述

3、归纳一下，这种Probabilistic SVM的做法分为三个步骤：
这里写图片描述
以上介绍了我们怎么对kernel SVM进行微调，作为z空间中逻辑回归问题的最优解。可是实际上，我们没有真正在z空间中去寻找最优解，z空间中真正的最优解会在下一节学习

5-4 Kernel Logistic Regression

之前讲的把svm用于Logistics Regression，其实是先用SVM进行特征变换，然后在变换后的空间使用LogReg，那么能不能直接在z空间做变换，而省去SVM的步骤呢？
上一小节我们介绍的是通过kernel SVM在z空间中求得logistic regression 的近似解。如果我们希望直接在z空间中直接求解logistic regression，通过引入kernel，来解决最优化问题，又该怎么做呢？
1、 SVM中使用kernel，转化为QP问题，进行求解，但是logistic regression 却不是个QP问题，看似好像没有办法利用kernel来解决。我们先来看看之前介绍的kernel trick为什么会work。 kernel trick就是把z空间的内积转换到x空间中比较容易计算的函数。
这里写图片描述

总结：
5-1将Soft-Margin SVM 和 Regularized Model进行了对比，5-2将SVM 和Logistic Regression进行了对比，5-3将SVM用于soft binary classification，具体来说是将SVM得到的结果作为分数来构造模型，5-4把kernel技巧引入带有L2正则化的logistics regression问题中。得到KLR