机器学习技法------Kernel Logistics Regression

Logistics Regression

对于线性回归
y=wz （将b写在了第0维同时将x做特征转化转化到z空间）
error = （y-wx）²
对于线性回归如果增加了 regression项那么得到的就是ridge regression
对于ridge regression而言其表达式为
min_wλ/Nw^Tw+1/2(y-wx)²
根据之前的推导最佳的w可以表示为z的线性组合即 w=∑_nβ_nz_n （1）
由之前推导可以得出 z_m^Tz_n 可以写成kernel的形式 K(x_m,x_n)
在这里插入图片描述

所以将原来的w的问题转化为求解β的形式
在这里插入图片描述

对于double summation 可以写成矩阵的形式
β^TKβ
在这里插入图片描述

对于β_mK(x_n,x_m) 可以写成向量形式 Kβ

从Soft margin 出发

对于soft margin 而言和 hard margin唯一的不同就是增加了一个 ζ，而ζ代表的是 margin violation （即违反margin的大小）
也就是说对于support vector而言违反的margin大小就是当前点的位置到原始边界的距离，如下图黑线所示
在这里插入图片描述

因此对于ζ 存在两种可能：
有违反margin的情况出现： ζ=1-y_n(wx_n+b)
如果对于点n没有违反margin 此时 ζ=0
所以ζ=max(1-y_n(wx_n+b),0)
SVM和L2regression的联系

在这里插入图片描述

C越大分类器越不能允许分类错误(离群点) C过大分类器就会竭尽全力保证每个都不犯错会造成过拟合
这和正则化中正则系数类似 λ越大正则项越大表示会控制模型复杂度防止过拟合

对于0,1损失
以y（wx+b）为横轴(即y和分数的乘积) 如果它小于0 那么说明 y和wx+b 是异号的损失为1 如果大于0 则说明是同号的损失为1
同理对于上述推导的
ζ=max(1-y_n(wx_n+b),0)
如果 y(wx+b) 大于1 那么损失也是0 如果小于1 那么损失为线性损失
在这里插入图片描述

SVM 和 logistics Regression结合

1.首先跑一个SVM 得到 w和b
2.将原始特征转化到SVM的特征空间 z_n^’=w_svm^TΦ(x)+b_svm
3.得到 g(x)=θ(A z_n^’+B)

回想一下能够使用Kernel trick的原因是能够写成两个向量的内积的形式即
K<x_n,x>
所以对于SVM和logistics regression 的组合求得的w 如果能够写成一堆z的线性组合
W=∑_nβ_nz_n
那么W^TZ=∑_nβ_nz_nz=∑_nβ_nK(x_n,x)
由此可见如果w可以写成z的线性组合就能够使用kernel trick
在这里插入图片描述

那么什么时候w可以写成z的线性组合呢，这里可以证明只要是存在w^Tw L2正则的项的最优w都可以写成 z_n的线性组合
在这里插入图片描述

如果最优的w可以写成z的线性组合那么 w应该是平行于z的又因为在任意空间中两个垂直的向量可以作为基底表示出空间中的全部向量
因此可以将最优w分解为垂直于∑z_n的向量和平行于∑z_n的向量
如果最优的w可以写成z的线性组合垂直于