机器学习基石(林轩田)第九章 笔记与感悟总结

9.1 Linear Regression - Linear Regression Problem

我们花力气在二元分裂的VC Bound是可以用在各种情形,也可以用在线性回归。

输出不是二元了,而是一个实数。输出空间就是一个实数。我们怎么做到机器学习呢?

相比感知器,我们最后的输出没有了sign


左图为二元空间,右图为三元空间。想找个小的residuals


传统上最常用的错误衡量使用  squared error



9.2 Linear Regression - Linear Regression Algorithm

我们接下来的任务就是求得一个较小的Ein,如何求w?

我们进行了矩阵化。一个X矩阵*W向量  -  y这个向量。

我们的梯度求出来了,但是什么时候等于0呢?


我们称这里的项为广义逆矩阵

N通常比自由度大。

我们没有逆矩阵,则又很多种解。

我们最好使用平台已经写好的pseudo-inverse的程序。


计算x,计算x剑标,返回x剑标*y作为值。

因为我们是基于矩阵的,因此可以很容易的扩展到更高维,只要平台能够提供一个很好的pseudo-inverse程序、



9.3 Linear Regression - Generalization Issue

这真的是机器学习嘛?好像是closed-form形式的公式,代数算就行。

也没看得见Ein的优化。

也可以说是,因为有好的Ein,而且还有好的Eout,中间步骤好像也在一个个的迭代的算。



我们对Ein的平均感兴趣:从罐子里不断的抓一把,算出Ein后取平均值。

大概长后面那个样子。

noise level是数据集到底有多少的噪音。

y上面一个帽子,是预测的label,因此可以拆开。

I为一个记号。

我们叫hat matrix H,因为它只要和y相乘,就给它带了一个帽子


y是n维空间的向量。

w是将x的每一列做线性组合,组合后的空间为粉红色的区域,y hat就在红色空间里。

我们想y-y hat 越小越好。就是垂直投影了。

H这个矩阵做的就是投影,就是将任何一个向量,投影在x所展开空间上

I -H做的就是y-y hat的余数部分。  这里是  i  ,不是 1  !!!!!!

对角线的值是N-(d+1),物理意义是N个自由度的向量,把它投影到d+1维的空间,然后去余数,剩下的自由度就最多是N-(d+1)



我们所看到的y,实际上是 最真实的  f(x)+noise.

我们想求的的Ein是y-y hat


我们对noise 同样的做余数的转换,余数的转换是(I -H),同样能够得到绿线的部分。

因此我们使用了I - H  和 noise来代替绿色



哲学是    Ein,就算有noise,会使Ein 偏一点,会使Ein好看一点,在我们的资料上。





9.4 Linear Regression - for Binary Classification

线性分类和线性回归的区别。

既然LinReg y是R,那么我可以不可以用回归的方法来解PLA?

线性回归的形式是closed-form,很快就能算出来,而PLA是一个NPhard难题。

这两者最大的区别就是对于错误的衡量

我们可以看出来,平方的错误总是大于0/1的错误。


这告诉我们什么?

我们通过VC bound那个公式求解出来了Eout(w)的值的上限变成了回归的Ein(w)的值。

因此,从数学上我们能够证明,只要能够优化 regression Ein(w),就能够优化classification。

或者另一种解释,我们想要求解err0/1,但是0/1错误不好解,我们就换个好解的。



猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80459377
今日推荐