9.1 Linear Regression - Linear Regression Problem
我们花力气在二元分裂的VC Bound是可以用在各种情形,也可以用在线性回归。
输出不是二元了,而是一个实数。输出空间就是一个实数。我们怎么做到机器学习呢?
相比感知器,我们最后的输出没有了sign
左图为二元空间,右图为三元空间。想找个小的residuals
传统上最常用的错误衡量使用 squared error
9.2 Linear Regression - Linear Regression Algorithm
我们接下来的任务就是求得一个较小的Ein,如何求w?
我们进行了矩阵化。一个X矩阵*W向量 - y这个向量。
我们的梯度求出来了,但是什么时候等于0呢?
我们称这里的项为广义逆矩阵。
N通常比自由度大。
我们没有逆矩阵,则又很多种解。
我们最好使用平台已经写好的pseudo-inverse的程序。
计算x,计算x剑标,返回x剑标*y作为值。
因为我们是基于矩阵的,因此可以很容易的扩展到更高维,只要平台能够提供一个很好的pseudo-inverse程序、
9.3 Linear Regression - Generalization Issue
这真的是机器学习嘛?好像是closed-form形式的公式,代数算就行。
也没看得见Ein的优化。
也可以说是,因为有好的Ein,而且还有好的Eout,中间步骤好像也在一个个的迭代的算。
我们对Ein的平均感兴趣:从罐子里不断的抓一把,算出Ein后取平均值。
大概长后面那个样子。
noise level是数据集到底有多少的噪音。
y上面一个帽子,是预测的label,因此可以拆开。
I为一个记号。
我们叫为hat matrix H,因为它只要和y相乘,就给它带了一个帽子
y是n维空间的向量。
w是将x的每一列做线性组合,组合后的空间为粉红色的区域,y hat就在红色空间里。
我们想y-y hat 越小越好。就是垂直投影了。
H这个矩阵做的就是投影,就是将任何一个向量,投影在x所展开空间上
I -H做的就是y-y hat的余数部分。 这里是 i ,不是 1 !!!!!!
对角线的值是N-(d+1),物理意义是N个自由度的向量,把它投影到d+1维的空间,然后去余数,剩下的自由度就最多是N-(d+1)
我们所看到的y,实际上是 最真实的 f(x)+noise.
我们想求的的Ein是y-y hat
我们对noise 同样的做余数的转换,余数的转换是(I -H),同样能够得到绿线的部分。
因此我们使用了I - H 和 noise来代替绿色
哲学是 Ein,就算有noise,会使Ein 偏一点,会使Ein好看一点,在我们的资料上。
9.4 Linear Regression - for Binary Classification
线性分类和线性回归的区别。
既然LinReg y是R,那么我可以不可以用回归的方法来解PLA?
线性回归的形式是closed-form,很快就能算出来,而PLA是一个NPhard难题。
这两者最大的区别就是对于错误的衡量。
我们可以看出来,平方的错误总是大于0/1的错误。
这告诉我们什么?
我们通过VC bound那个公式求解出来了Eout(w)的值的上限变成了回归的Ein(w)的值。
因此,从数学上我们能够证明,只要能够优化 regression Ein(w),就能够优化classification。
或者另一种解释,我们想要求解err0/1,但是0/1错误不好解,我们就换个好解的。