机器学习基石（林轩田）第九章笔记与感悟总结

9.1 Linear Regression - Linear Regression Problem

我们花力气在二元分裂的VC Bound是可以用在各种情形，也可以用在线性回归。

输出不是二元了，而是一个实数。输出空间就是一个实数。我们怎么做到机器学习呢？

相比感知器，我们最后的输出没有了sign

左图为二元空间，右图为三元空间。想找个小的residuals

传统上最常用的错误衡量使用 squared error

9.2 Linear Regression - Linear Regression Algorithm

我们接下来的任务就是求得一个较小的Ein，如何求w？

我们进行了矩阵化。一个X矩阵*W向量 - y这个向量。

我们的梯度求出来了，但是什么时候等于0呢？

我们称这里的项为广义逆矩阵。

N通常比自由度大。

我们没有逆矩阵，则又很多种解。

我们最好使用平台已经写好的pseudo-inverse的程序。

计算x，计算x剑标，返回x剑标*y作为值。

因为我们是基于矩阵的，因此可以很容易的扩展到更高维，只要平台能够提供一个很好的pseudo-inverse程序、

9.3 Linear Regression - Generalization Issue

这真的是机器学习嘛？好像是closed-form形式的公式，代数算就行。

也没看得见Ein的优化。

也可以说是，因为有好的Ein，而且还有好的Eout，中间步骤好像也在一个个的迭代的算。

我们对Ein的平均感兴趣：从罐子里不断的抓一把，算出Ein后取平均值。

大概长后面那个样子。

noise level是数据集到底有多少的噪音。

y上面一个帽子，是预测的label，因此可以拆开。

I为一个记号。

我们叫为hat matrix H，因为它只要和y相乘，就给它带了一个帽子

y是n维空间的向量。

w是将x的每一列做线性组合，组合后的空间为粉红色的区域，y hat就在红色空间里。

我们想y-y hat 越小越好。就是垂直投影了。

H这个矩阵做的就是投影，就是将任何一个向量，投影在x所展开空间上

I -H做的就是y-y hat的余数部分。这里是 i ，不是 1 ！！！！！！

对角线的值是N-（d+1），物理意义是N个自由度的向量，把它投影到d+1维的空间，然后去余数，剩下的自由度就最多是N-（d+1）

我们所看到的y，实际上是最真实的 f（x）+noise.

我们想求的的Ein是y-y hat

我们对noise 同样的做余数的转换，余数的转换是（I -H），同样能够得到绿线的部分。

因此我们使用了I - H 和 noise来代替绿色

哲学是 Ein，就算有noise，会使Ein 偏一点，会使Ein好看一点，在我们的资料上。

9.4 Linear Regression - for Binary Classification

线性分类和线性回归的区别。

既然LinReg y是R，那么我可以不可以用回归的方法来解PLA？

线性回归的形式是closed-form，很快就能算出来，而PLA是一个NPhard难题。

这两者最大的区别就是对于错误的衡量。

我们可以看出来，平方的错误总是大于0/1的错误。

这告诉我们什么？

我们通过VC bound那个公式求解出来了Eout（w）的值的上限变成了回归的Ein（w）的值。

因此，从数学上我们能够证明，只要能够优化 regression Ein(w)，就能够优化classification。

或者另一种解释，我们想要求解err0/1，但是0/1错误不好解，我们就换个好解的。