【学习笔记】泛化

我们设计模型很大程度上是为了预测未来的数据,而模型对当前数据的解释能力过高,往往会影响对未来数据的预测。这种预测能力我们称之为泛化能力。

我们可以看到原图2中对当前数据的解释能力非常的强(拟合程度非常高),但是加入新数据后该模型的解释能力相当的低。

过拟合往往是因为模型的复杂程度超过了我们所需要的程度。

奥卡姆认为科学家应该优先采用更简单(而非更复杂)的公式或理论。奥卡姆剃刀定律在机器学习方面的运用如下:

机器学习的模型越简单,泛化能力可能就越强。

现今,我们已经将奥卡姆剃刀统计学习理论和计算学习领域。这些领域已经形成泛化边界。

这里我们需要将数据集分为两类(以后会提到,实际分为三类):

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试模型的子集。

一般来说在模型在测试集的表现是泛化的有用指标,前提是:

  • 测试集 足够大。
  • 不会使用相同的测试集来造假

三项基本假设:

1.我们从分布中随机抽取独立同分布(i.i.d)的样本。换言之,样本之间不会互相影响。

2.分布是平稳的,即分布不会在数据集内发生变化。

3.我们从同一部分的数据划分中抽取样本。

实践中,我们可能会违背以上假设:

1.想想有一个要选择展示广告的模型,该模型在某种程度上根据用户以前看过的广告选择广告,这里既违背了i.i.d假设(样本之间互相影响)。

2.一个包含有一年零售信息的数据集,该数据集可能会呈现季节性变化,这违反了平稳性。

如果违背了上述三项基本假设中的任何一项,那么我们就必须密切注意指标。

猜你喜欢

转载自blog.csdn.net/Canon__/article/details/82751440
今日推荐