【台大林轩田《机器学习基石》笔记】Lecture 8——Noise and Error

Lecture 8:Noise and Error

Noise and Probabilistic Target

如果数据集本身存在噪声,会不会影响VC Dimension的推导?

数据集中的噪声来源:

  • 人为因素导致误分类
  • 同样的样本被分为不同的类别
  • 样本特征错误
  • …………
    在这里插入图片描述

之前的数据集是确定的,即没有Noise,叫做“Deterministic”。如果有噪声数据,也就是说在某点处不再是确定分布,而是概率分布了,即对每个 ( x , y ) (x,y) (xy)出现的概率是 P ( y ∣ x ) P(y|x) P(yx)

在这里插入图片描述

如果可以证明数据集按照 P ( y ∣ x ) P(y|x) P(yx)概率分布且是iid(独立同分布)的,那么以前证明机器可以学习的方法依然奏效。
在这里插入图片描述

P ( y ∣ x ) P(y|x) P(yx)称之为目标分布(Target Distribution)。它实际上告诉我们最理想的选择是什么,同时伴随着多少noise。

比如在x点,有0.7的概率y=1,有0.3的概率y=0,显然选择 x x x为圆圈类是更为理想的,同时0.3可以看成 x x x是噪声的几率为30%。

对于Deterministic的数据集,也可以看成是一种特殊的概率分布:
在这里插入图片描述

在加入噪声的情况下,新的学习流程图:

在这里插入图片描述

Error Measure

Pointwise Error:对数据集的每个点计算错误并计算平均

在这里插入图片描述

两个重要的Pointwise Error Measure:

  • 0/1 error,通常用在分类问题
  • squared error,通常用在回归问题

在这里插入图片描述

Ideal Mini Target由 P ( y ∣ x ) P(y|x) P(yx) e r r err err共同决定,不同的 e r r err err选出的 g g g可能不一样

右侧1.1的计算:
( 1 − 1 ) 2 ∗ 0.2 + ( 1 − 2 ) 2 ∗ 0.7 + ( 1 − 3 ) 2 ∗ 0.1 (1-1)^2*0.2+(1-2)^2*0.7+(1-3)^2*0.1 (11)20.2+(12)20.7+(13)20.1
在这里插入图片描述

Algorithmic Error Measure

Error有两种:false accept和false reject。false accept意思是误把负类当成正类,false reject是误把正类当成负类。

在这里插入图片描述

根据不同的机器学习问题,false accept和false reject应该有不同的权重,这根实际情况是符合的,比如是超市优惠,那么false reject应该设的大一些;如果是安保系统,那么false accept应该设的大一些。

机器学习真实的err一般难以计算,常用的方法可以采用plausible(比较合理的替代)或者friendly(更加容易对算法进行优化),根据具体情况而定。

在这里插入图片描述

Weighted Classification

Weighted Classification就是不同Err类型赋不同权重的分类问题,比如下图中的例子:

在这里插入图片描述

对于带权重的分类问题,如何最小化 E i n E_{in} Ein?
在这里插入图片描述

对于PLA来说,如果数据是线性可分的,那么最终的 E i n E_{in} Ein一定会是0

否则的话,使用pocket算法,如果 w t + 1 w_{t+1} wt+1的误差更小,那么就用 w t + 1 w_{t+1} wt+1替换 w t w_t wt,之前的pocket算法能够保证 E i n 0 / 1 E_{in}^{0/1} Ein0/1最小,那么修改之后能否依然在 E i n w E_{in}^w Einw上保证?
在这里插入图片描述

在这里插入图片描述

这种对不同权重的错误惩罚方法,叫做virtual copying

猜你喜欢

转载自blog.csdn.net/i0o0iW/article/details/112997774