8.1 Noise and Error - Noise and Probabilistic Target
任务:有噪音的情况下如何衡量我们错误
上一节:如果我们的假设空间有有限的dvc ,很大的资料 又能找到g使Ein很小的话,那么我们大概就能学到东西。
如果有noise怎么办呢?比如标签标错了,同时既是好的又是坏的,输入信息就有错误等等。
此时的vc bound 还有用嘛?我们进行vc bound 推导用了很多的假设,我们想放宽这些假设。
我们想知道橘色弹珠的比例,x是一个一个的输入,从罐子里某一个几率分布p抽出来。
f的预测和h的预测一不一样,一样记成橘色,不一样记成绿色。
我们想象的一个弹珠是颜色变来变去。但是我们记录抽出来的颜色。即出现了噪音的情况。
我们选择了o的几率比较大,那么那出现0.3的那几次就是噪音
与之前不同的地方在于左上角变成了distribution P(y|x)
pocket 就是在A那边让 Ein 越小越好,那样Eout也会越小越好。只要noise 能被target distribution来做描述的话,我们依旧能做的很好。
①如果提前知道线性可分,那么很有可能就已经知道了w是多少,就没有必要跑PLA了。
②f加上噪音很有可能不是线性可分的了
③类似②
8.2 Noise and Error - Error Measure
我们关心的是三点
1)没有抽样的部分
2)在每个点x上进行衡量
3)取出的和预测的是不是一样的,我们习惯称之为classification
我们通常又称classification error叫做 ‘0/1错误’
我们可以考虑每个点上的错误加起来或者做平均的方式。
我们只要关注每个点上的错误衡量
叫做 pointwise error measure
我们对错误的衡量,影响了我们对g的评价。
用什么的错误衡量决定了最好的f是什么样子的 。
8.3 Noise and Error - Algorithm Errpr Measure
错误的衡量哪里来的呢?
是你的话 +1 ,其他的就是-1
会犯两类错误。
超市给折扣,经常来的人如果false reject 的话,会有很大的损失。
损失如右侧的表格
对于CIA 判断员工权限进入的成本。
错误的衡量很难,你不知道是1000倍还是10000倍、
两种替代的方式、
找一些有意义的错误衡量,比如0/1的Ein小或者高斯噪音分布的平方项小的情形。
因为可能会有NPhard问题,因此采用其他有意义的方法。
设计演算法时找到说服自己的方式,或者friendly的方式。
8.4 Noise and Error - Weighted Classification
不同的错误,有不同的权重。
成本、错误,损失 矩阵。
我们修改了pocket演算法,那么还能保证能够让Ein 变小?
我们证明了用修改后的pocket演算法依旧能够很好的使Ein变小。
思路就是假设负的数据,复制权重数,那么多倍。这样就可以实现目标。
我们不会真的去复制,因为消耗计算机资源。
因此可以修改 读数据的概率,比如有1000倍的概率去修改那些数据。
有系统的将一个方法延伸到另外一个方法上使用叫做reduction
我们加入有个h总是返回+1(好烂的假设),结果代价是0.01,挺小的,我们的电脑觉得挺不错。原因在于数据是不平衡的,因此通过调整权重。