机器学习基石第九讲笔记

Lecture 9: Linear Regression线性回归

9-1 线性回归问题

信用额度问题:

x=(x0,x1,x2,...,xd)为顾客特征,y是输出的加权后的信用额度,线性回归假说为h如图:


那么线性回归长什么样呢?在输入为一维时如左图,输入为二维时如右图:

线性回归分析想要做的就是找到一个最好的线或者最好的面,希望红色的线的部分越小越好。

那通常是怎么使得红色的线最小呢?一般是squared error的方式

in-sample是训练样本,out-of-sample是测试样本。


那么现在的问题是,应当如何使Ein最小化?

扫描二维码关注公众号,回复: 122793 查看本文章


9-2 线性回归算法

衔接9-1,所以要求得使得Ein最小的好的w。对Ein公式进行矩阵变换:


对变换后的公式进行分析:

Ein:连续可微凸函数,所以存在着全局最优点,此时是Ein的最小值,即一个好的w对应的Ein。故转换问题为找到使得Ein梯度为0的地方

对Ein的公式变换:


其中,A为矩阵,b为向量,c为常数。

目标:找到梯度为0的点。此时求得一个好的w值



9-3 一般化问题

9-2是一个公式就可以算出来的,这真的是机器学习吗?

是的,它会有好的Ein,好的Eout,而且算pseudo-inverse的过程并不是一步登天。所以如果这个方法的Eout是好的,那么机器学习过程已经发生了。

那么Eout为什么是好的呢?

我们需要看Ein的平均(对不同的data),得到的公式为:


d+1是自由度,有多少个不同的w;N是data的量。

证明过程为:


其中我们把XX^+叫做帽子矩阵(给y带了帽子变成y_height)

几何上来说,y_height会在下图粉红色的空间里:

那么我们想要的,就是y-y_height最小的时候,也即垂直投影的时候。

当我们考虑nosie的时候,上图变成了:

所以可以得到:


其中H是从y到y_height的投影(线性变换),I-H是求y-y_height余数部分的线性变换。

最终可以证得9-3最开始的公式,此外也可以相似地证明出Eout的公式,我们把公式得到的曲线叫做学习曲线:

我们可以得到:一般化的错误概率为:2(d+1)/N;并且在线性回归问题中,学习真的已经发生了。


9-4 线性分类和线性回归

classification和regression:前者是NP-难问题,而后者非常好解,那么可以用线性回归做二分类问题吗?

那么两者最大的区别,是对平方的衡量:

当y=1或-1时,两者的图形化区别为:

可以看出:平方的error都比0/1的error大


回到9-4最开始的问题,答案是肯定的。我们可以用regression做classification问题(一个宽松的bound)。



注:从本次笔记开始,以后绿色标记统一为着重强调内容,紫色标记统一为不完全理解的内容。

另外,没有特别声明的,“机器学习基石课程”分类中所有博文的配图,都来自台湾大学《机器学习基石》网络课程截图。




猜你喜欢

转载自blog.csdn.net/weixin_37805505/article/details/79246826