Lecture 8:Noise and Error

Noise and Probabilistic Target

如果数据集本身存在噪声，会不会影响VC Dimension的推导？

数据集中的噪声来源：

之前的数据集是确定的，即没有Noise，叫做“Deterministic”。如果有噪声数据，也就是说在某点处不再是确定分布，而是概率分布了，即对每个 $(x ， y)$ 出现的概率是 $P (y ∣ x)$

在这里插入图片描述

如果可以证明数据集按照 $P (y ∣ x)$ 概率分布且是iid(独立同分布)的，那么以前证明机器可以学习的方法依然奏效。
在这里插入图片描述

$P (y ∣ x)$ 称之为目标分布（Target Distribution）。它实际上告诉我们最理想的选择是什么，同时伴随着多少noise。

比如在x点，有0.7的概率y=1，有0.3的概率y=0，显然选择 $x$ 为圆圈类是更为理想的，同时0.3可以看成 $x$ 是噪声的几率为30%。

对于Deterministic的数据集，也可以看成是一种特殊的概率分布：
在这里插入图片描述

在加入噪声的情况下，新的学习流程图：

在这里插入图片描述

Pointwise Error:对数据集的每个点计算错误并计算平均

在这里插入图片描述

两个重要的Pointwise Error Measure:

在这里插入图片描述

Ideal Mini Target由 $P (y ∣ x)$ 和 $e r r$ 共同决定，不同的 $e r r$ 选出的 $g$ 可能不一样

右侧1.1的计算：
$1-1)^2*0.2+(1-2)^2*0.7+(1-3)^2*0.1$
在这里插入图片描述

Error有两种：false accept和false reject。false accept意思是误把负类当成正类，false reject是误把正类当成负类。

在这里插入图片描述

根据不同的机器学习问题，false accept和false reject应该有不同的权重，这根实际情况是符合的，比如是超市优惠，那么false reject应该设的大一些；如果是安保系统，那么false accept应该设的大一些。

机器学习真实的err一般难以计算，常用的方法可以采用plausible(比较合理的替代)或者friendly（更加容易对算法进行优化），根据具体情况而定。

在这里插入图片描述

Weighted Classification就是不同Err类型赋不同权重的分类问题，比如下图中的例子：

在这里插入图片描述

对于带权重的分类问题，如何最小化 $E_{in}$ ?
在这里插入图片描述

对于PLA来说，如果数据是线性可分的，那么最终的 $E_{in}$ 一定会是0

否则的话，使用pocket算法，如果 $w_{t+1}$ 的误差更小，那么就用 $w_{t+1}$ 替换 $w_t$ ，之前的pocket算法能够保证 $E_{in}^{0/1}$ 最小，那么修改之后能否依然在 $E_{in}^w$ 上保证？
在这里插入图片描述

在这里插入图片描述

这种对不同权重的错误惩罚方法，叫做virtual copying