机器学习技法笔记5:Kernel 逻辑回归

5-1 Soft-Margin SVM as Regularized Model

前面几篇:
机器学习技法笔记1:线性SVM
机器学习技法笔记2: SVM的对偶形式
机器学习技法笔记3: Kernel SVM
机器学习技法笔记4: Soft Margin SVM
上节课我们主要介绍了Soft-Margin SVM,即如果允许有分类错误的点存在, 那么在原来的Hard-Margin SVM中添加新的惩罚因子C,修正原来的公式, 得到新的αn值。最终的到的αn有个上界,上界就是C。Soft-Margin SVM权 衡了large-margin和error point之前的关系,目的是在尽可能犯更少错误的 前提下,得到最大分类边界。
本节课将把Soft-Margin SVM和我们之前介绍的Logistic Regression联系起来,研究如何使用kernel技巧来解决更多的问题。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里提一下,既然unconstrained form SVM与L2 Regularization的形式是 一致的,而且L2 Regularization的解法我们之前也介绍过,那么为什么不直 接利用这种方法来解决unconstrained form SVM的问题呢?
有两个原因。 一个是这种无条件的最优化问题无法通过QP解决,即对偶推导和kernel都无 法使用;另一个是这种形式中包含的max()项可能造成函数并不是处处可导, 这种情况难以用微分方法解决。
这里写图片描述
这里写图片描述
5、
通过对比,我们发现L2 Regularization和Soft-Margin SVM的形式是相同 的,两个式子分别包含了参数λ和C。Soft-Margin SVM中的large margin 对应着L2
Regularization中的short w,也就是都让hyperplanes更简单一些。我们使 用特别的err^来代表可以容忍犯错误的程度,即soft margin。
这里写图片描述
这里写图片描述

5-2 SVM versus Logistic Regression

这里写图片描述
这里写图片描述
所以,可以使用err^svm来代替err0/1,解决二元线性分类问题,而且err^svm 是一个凸函数,使它在最佳化问题中有更好的性质。
这里写图片描述
这里写图片描述
3、
总结一下,我们已经介绍过几种Binary Classification的Linear Models,包 括PLA,Logistic Regression和Soft-Margin SVM。
PLA是相对简单的一个模型,对应的是err0/1,通过不断修正错误的点来获得 最佳分类线。它的优点是简单快速,缺点是只对线性可分的情况有用,线性不 可分的情况需要用到pocket算法。
Logistic Regression对应的是errsCE,通常使用GD(gradient design)/SGD 算法求解最佳分类线。它的优点是凸函数errsCE便于最优化求解,而且有 regularization作为避免过拟合的保证;缺点是errsCE作为err0/1的上界,当 ys很小(负值)时,上界变得更宽松,不利于最优化求解。
Soft-Margin SVM对应的是err^svm,通常使用QP求解最佳分类线。它的 优点和Logistic Regression一样,凸优化问题计算简单而且分类线比较“粗 壮”一些;缺点也和Logistic Regression一样,当ys很小(负值)时,上界 变得过于宽松。其实,Logistic Regression和Soft-Margin SVM都是在最佳 化err0/1的上界而已。
这里写图片描述
这里写图片描述

5-3 SVM for Soft Binary Classification

1、 接下来,我们探讨如何将SVM的结果应用在Soft Binary Classification中, 得到是正类的概率值。
第一种简单的方法是先得到SVM的解(bsvm,wsvm),然后直接代入到logistic regression中,得到g(x)=θ(wTsvmx+bsvm)。这种方法直接使用了SVM和 logistic regression的相似性,一般情况下表现还不错。但是,这种形式过于 简单,与logistic regression的关联不大,没有使用到logistic regression中 好的性质和方法。
这里写图片描述

第二种简单的方法是同样先得到SVM的解(bsvm,wsvm),然后把(bsvm,wsvm)作 为logistic regression的初始值,再进行迭代训练修正,速度比较快,最后, 将得到的b和w代入到g(x)中。这种做法有点显得多此一举,因为并没有比直 接使用logistic regression快捷多少。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

3、 归纳一下,这种Probabilistic SVM的做法分为三个步骤:
这里写图片描述
以上介绍了我们怎么对kernel SVM进行微调,作为z空间中逻辑回归问题的 最优解。可是实际上,我们没有真正在z空间中去寻找最优解,z空间中真正 的最优解会在下一节学习
这里写图片描述

5-4 Kernel Logistic Regression

之前讲的把svm用于Logistics Regression,其实是先用SVM进行特征变 换,然后在变换后的空间使用LogReg,那么能不能直接在z空间做变换,而 省去SVM的步骤呢?
上一小节我们介绍的是通过kernel SVM在z空间中求得logistic regression 的近似解。如果我们希望直接在z空间中直接求解logistic regression,通过 引入kernel,来解决最优化问题,又该怎么做呢?
1、 SVM中使用kernel,转化为QP问题,进行求解,但是logistic regression 却不是个QP问题,看似好像没有办法利用kernel来解决。 我们先来看看之前介绍的kernel trick为什么会work。 kernel trick就是把z空间的内积转换到x空间中比较容易计算的函数。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
总结:
5-1将Soft-Margin SVM 和 Regularized Model进行了对比,5-2将SVM 和Logistic Regression进行了对比,5-3将SVM用于soft binary classification,具体来说是将SVM得到的结果作为分数来构造模型,5-4把kernel技巧引入带有L2正则化的logistics regression问题中。得到KLR

猜你喜欢

转载自blog.csdn.net/wang18741337665/article/details/82462517