机器学习基石(林轩田)第八章 笔记与感悟总结

8.1 Noise and Error - Noise and Probabilistic Target

任务:有噪音的情况下如何衡量我们错误

上一节:如果我们的假设空间有有限的dvc ,很大的资料 又能找到g使Ein很小的话,那么我们大概就能学到东西。




如果有noise怎么办呢?比如标签标错了,同时既是好的又是坏的,输入信息就有错误等等。



此时的vc bound 还有用嘛?我们进行vc bound 推导用了很多的假设,我们想放宽这些假设。

我们想知道橘色弹珠的比例,x是一个一个的输入,从罐子里某一个几率分布p抽出来。

f的预测和h的预测一不一样,一样记成橘色,不一样记成绿色。

我们想象的一个弹珠是颜色变来变去。但是我们记录抽出来的颜色。即出现了噪音的情况。



我们选择了o的几率比较大,那么那出现0.3的那几次就是噪音



与之前不同的地方在于左上角变成了distribution P(y|x)

pocket 就是在A那边让 Ein  越小越好,那样Eout也会越小越好。只要noise 能被target distribution来做描述的话,我们依旧能做的很好。


①如果提前知道线性可分,那么很有可能就已经知道了w是多少,就没有必要跑PLA了。

②f加上噪音很有可能不是线性可分的了

③类似②



8.2 Noise and Error - Error Measure

我们关心的是三点

1)没有抽样的部分

2)在每个点x上进行衡量

3)取出的和预测的是不是一样的,我们习惯称之为classification

我们通常又称classification error叫做 ‘0/1错误’


我们可以考虑每个点上的错误加起来或者做平均的方式。

我们只要关注每个点上的错误衡量

叫做 pointwise error measure



我们对错误的衡量,影响了我们对g的评价。 



用什么的错误衡量决定了最好的f是什么样子的 。






8.3 Noise and Error - Algorithm Errpr Measure

错误的衡量哪里来的呢?

是你的话 +1 ,其他的就是-1

会犯两类错误。

超市给折扣,经常来的人如果false reject 的话,会有很大的损失。

损失如右侧的表格


对于CIA 判断员工权限进入的成本。


错误的衡量很难,你不知道是1000倍还是10000倍、

两种替代的方式、

找一些有意义的错误衡量,比如0/1的Ein小或者高斯噪音分布的平方项小的情形。

因为可能会有NPhard问题,因此采用其他有意义的方法。

设计演算法时找到说服自己的方式,或者friendly的方式。





8.4 Noise and Error - Weighted Classification

不同的错误,有不同的权重。

成本、错误,损失 矩阵。


我们修改了pocket演算法,那么还能保证能够让Ein 变小?

 

我们证明了用修改后的pocket演算法依旧能够很好的使Ein变小。

思路就是假设负的数据,复制权重数,那么多倍。这样就可以实现目标。


我们不会真的去复制,因为消耗计算机资源。

因此可以修改 读数据的概率,比如有1000倍的概率去修改那些数据。

有系统的将一个方法延伸到另外一个方法上使用叫做reduction


我们加入有个h总是返回+1(好烂的假设),结果代价是0.01,挺小的,我们的电脑觉得挺不错。原因在于数据是不平衡的,因此通过调整权重。




猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80453591